harvester 1.5

Hetk tagasi hakkas blog.tr.ee kataloogis blogidest uusi postitusi otsima blogtree harvester versioon 1.5, mille user-agent tunnuseks on ka vastav ‘bteHarvester/1.5 (+http://blog.tr.ee/harvester.htm)’.

Idee järgi peaks olema paranenud rss-ide tõmbamine ehk et saadakse kätte kõik failid, ka need mis on ümber suunatud jne. Fail tõmmatakse ära vaid siis kui see on muutunud ehk et peaks vähenema ka mõlemapoolsed andmeedastustusmahtud. Samuti peaks paranema xml-rpc ping erinevate blogide korral, kuna mõnedel see siiani ei töötanud (ping-i minimaalne intervall on 5 minutit, kuna senikauaks jäetakse rss puhvrisse ja serverilt seda uuesti ei pärita).

Hetkel kulub ühe ringi tegemiseks 2 tundi ja 12 minutit. Kuid peagi on kavas seda kiirust vähemalt 2 korda suurendada, et saaks maksimaalselt tunni ajaga postituse blogtreesse üles – enne seda peame jälgima, et kas uus harvester ka tõepoolest nii hästi töötab nagu praegu tundub.

6 thoughts on “harvester 1.5”

  1. kommentaarifiide indekseerime väga katseliselt ja väga väikeses osas – varem ei saa me suuremalt peale hakata kui oleme välja mõeld lahenduse, et kuidas kõik need mustmiljon feed-i (igal postitutusel on oma kommentaaride feed vs. igal blogil on 1 feed) süngitud saame ja kas kontrollida ka vanemaid postitusi või mitte.

    hetkel on idee selline et uuemaid feede süngiks tihedamalt (mõned korrad päevas) ja vanemaid harvemini kuni mingi poole aasta peale välja (mõned korrad kuus).

    aga siiski, see tähendab mustmiljon feed-i.

  2. Kas harvester 404 koodi ka mõistab? Kakub teine meeleheitlikult olematuid Blogger.ee blogide fiide. Muidugi, võib kord kuus nimekirja kustutatud blogidest saata, kuid see oleks veidi kilplaslik.

  3. Nii palju mõistab, et logib selle 404 veateadete logisse – aga me pole tahtnud automaatset kustutamist teha ja käsitsi pole viitsind. A praegu vaatasin järgi, leidsin 5 blogger.ee blogi mida enam olemas pole ja kustutasin ära.

Kommenteerimine on suletud.