Vahepealsed teated

logo_blogtree.gif

Blog.tr.ee indekseerib nüüd juba mõnda aega blogipostitusi varasemast tunduvalt kiiremini. Hetkel peaks reeglina kuluma 10 minutit kuni tund postituse lehel ilmumiseks, varasema kuni 4 tunnise intervalli asemel. Paratamatult kaasnes süsteemi elluviimisel ka mõningaid probleeme, mis ilmnesid peamiselt topeltpostituste näol, aga praeguseks on see mure lahendatud.

Katseliselt indekseerime paralleelselt blog.tr.ee-ga teist, autonoomset süsteemi, kuhu blogid ei lisata mitte kasutajate poolt, vaid leitakse automaatselt internetist. Momendil on kirjas kuskil 8000 eestikeelset blogi ametliku blog.tr.ee 2900 vastu. Kuid seda me vähemalt praegu avalikult üles ei pane, kuna võib tekkida probleeme blogijatega, kes ei taha et nende tekstid võõrastel lehtedel ilmuks.

Teemade järgi automaatselt postituste grupeerimine on hetkel külmutatud, kuna me ei suutnud saada piisavalt kõrget tabavusprotsenti (saime kuskile 40% ligi). Blogipostitused on reeglina liiga lühikesed ja liiga laialivalguvad, et neid saaks hõlpsalt mingi kindla teema alla lükata. Loetud text mining ja text clustering raamatutest polnud suurt abi, kuna need keskendusid rohkem pikemate (teadus)dokumentide vaheliste seoste leidmisele.

Ühesõnaga, eestikeelsete blogipostituste statistiliselt keskmiseks pikkuseks on ilma tühikuteta 846 tähemärki, mis on täpselt nii pikk:

Lorem ipsum dolor sit amet, consectetuer s adipiscing elit. Suspendisse volutpat. Duis rhoncus. Maecenas venenatis, ligula a eleifend aliquet, nisl sem rutrum ante, non convallis orci mauris vitae nibh. Integer placerat, lacus eu consectetuer sodales, turpis eros venenatis neque, vel blandit lacus ligula at pede. Vivamus hendrerit fermentum nulla. Morbi risus. Sed sed tellus. Ut fringilla mi et lacus. Aenean sed elit eu nulla nonummy auctor. Nunc dapibus vehicula elit. Nam bibendum. Nulla tincidunt augue et massa. Duis fermentum consectetuer pede. Fusce sollicitudin blandit erat. Sed rhoncus massa eu eros.

Donec est. Vivamus tincidunt tellus in eros. Integer in lacus ut diam dignissim semper. Sed placerat, lacus et mattis iaculis, libero lacus convallis quam, sit amet adipiscing eros nulla sit amet felis. Cras mattis diam eu nisl. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas. Donec vel justo. Nunc eleifend egestas neque. Ut laoreet.

5 thoughts on “Vahepealsed teated”

  1. “kuna võib tekkida probleeme blogijatega, kes ei taha et nende tekstid võõrastel lehtedel ilmuks” – minu arvates põhjendamatu kahtlus. Teie jätate indekseerimata, indekseerivad Google ja teised rahvusvahelised teenused. Ainsa karuteene teete kasutajatele ja endale, et kohaliku teenuse asemel peame kasutama välismaiseid. Mis te põete kogu aeg, tegu ju automaatse teenusega 🙂

  2. Üldiselt nõus, aga eneseõigustuseks paar pointi.

    Meil tuleb pidevalt (mitu korda nädalas) tegeleda inimeste kirjadega, kes kurdavad, et nende blogi on kuidagi sattunud blog.tr.ee-sse ja nad ei taha seda seal näha. Hetkel on meie vabanduseks see, et me ise pole lisanud seda blogi, seda on teinud keegi kolmas isik ja lihtsalt nagu soovi on avaldatud, eemaldame blogi meie lehelt.

    Kui aga blogid ilmuvad saidile automaatselt ja otsest mehhanismi nende eemaldamiseks pole (ja eemaldamine ei käi niikuinii sellise saidi kontseptsiooniga kokku), siis võib tekkida komplikatsioone. Inimesed, selle asemel et endal RSS kinni lükata (mis päästab juba praegu) või klikkida blogi seadetes nupule “ära näita minu blogi otsingumootorites ega listingutes”, mis aitaks väga hästi selle automaatse blogi leidmise puhul, eelistavad saata süüdistavaid kirju teenusepakkujale, et nende õigusi on rämedalt rikutud.

    A la keiss, kus inimesed teevad blogi kellelegi konkreetsele inimesele, näiteks ämmale sünnipäevaks – kirjutavad sinna igast asju enda toimetamistest ja niiöelda toodavad vanainimesele lugemismaterjali. Kui nüüd see blogi kuidagi meie lehele satub, siis saame kohe pahameelekirju, et see on erablogi ja me ei tohi seda avaldada (ekstreemsematel juhtudel pannakse samasse lausesse sisse ka termineid stiilis “kohtume kohtus”). Samas aga on mõistusevastaselt blogi kõikide kanalite kaudu maailmale nähtav – ta publitseerib RSS feed-i, pingib kõikvõimalikke blogimisteenuseid, on indekseeritud Googles jne.

    Go figure.

  3. mhh, aga kas text mining töötaks järgmiselt

    -nimede järgi (poliitikute jt avaliku elu tegelaste andmebaas on piisavalt suur, probleemisk eestik käändelõpud)
    -kohtade alusel (tallinn – tartu – pärnu, raekoja platsile lisatakse juurde tunnus tallinn)
    -emotsiooni alusel (see vist on liiga raske, aga kuui tekstis kasutatavd omadussõnad ära märgistada)

    et siis need märksõnad leitaks postituse tekstist ülesse, lisataks juurde tagidena nimed ja kohad

  4. Tavaliste märksõnade järgi teema määramine on suhtkoht mõttetu. Näiteks kui on juttu maskiballist, kus inimesed olid riietatud kui Inglise kuninganna, Napoleon ja mõned poliitikategelased nimepidi jne, siis on läheb märksõnade järgi sorteerimine kohe rappa.

    Meie katsetasime statistilist vector space model-it http://en.wikipedia.org/wiki/Vector_Space_Model
    Käändelõppude ehk stemminguga saime enamvähem hakkama, stop word nimekirja saime ka kokku. Aga suurt kasu polnud, postitused lihtsalt on liiga lühikesed ja neis pole reeglina ka ühte konkreetselt eristatavat teemat.

    Näiteks need praegused prügi sorteerimise jutud – kuhu teemasse need üldse panna? Ei ole ju mõtet määrata ette muu hulgas kindlat teemat – “prügi sorteerimine”, sest sel juhul oleks teemasid juba ise mustmiljon. Kui teha selline skaala nagu ajalehtedes – eesti, välis, poliitika, kultuur jne – siis läheks see ilmselt “elu” alla. Aga sellesse samasse kategooriasse läheks ka enamus teisi postitusi, näiteks kirjeldus eelmise õhtu peost.

    Konkreetselt sorteerida saaks poliitikute blogide postitused, tehnikablogide postitused ja veel mõned teemablogide postitused. Aga paraku moodustavad need blogid kõikide blogide hulgast väga väikese vähemuse.

Kommenteerimine on suletud.