08.2007 arhiiv

Uuest blog.tr.ee-st

28.08.2007

blogtree.png

Nüüd, mil uue blog.tr.ee avalikustamiseni on jäänud vähem kui kaks nädalat (momendil püsime graafikus), räägiks veidi lähemalt tulevasest. Põhierinevuseks praegusega on kasutajakontode tagasitulek – versioonis number 2 olid kasutajakontod olemas, kud kolmandast versioonist jäid nood välja. Aeg oleks seega juba ammu kontod tagasi tuua.

Märksõnaks olekski praeguse jäiga süsteemi asemel kõrgelt kohandatav, täpselt nii nagu kindlale kasutajale meeldib.

(veel…)

  • Share/Bookmark

Veel keeletuvastusest

17.08.2007

earth.png

Nagu ikka, tuleb kõigepealt ise jalgratas leiutada ja alles siis uurida, et kas keegi juba varem midagi taolist teinud pole. Tavaliselt on.

Igatahes, viimased paar päeva olen uurinud n-gram‚ide teooriat ehk seda, mis on (reeglina) keeletuvastuse taga (muuhulgas saab n-gram’e ka teisteks vajadusteks kasutada, aga konkreetselt on siis juttu keeletuvastusest).

Meie süsteemis käivad asjad küll natuke teisiti, meie nimelt arvutame kokku üldise sõnade esinemise (mitte järgnevuse) sageduse mingis keeles ning omistame igale sõnale teatud punktide arvu (ja seda logaritmiliselt, kuna vähemalt üks keerulisem valem peaks ikka süsteemis kasutusel olema või mis). Ja kui nüüd mingit tundmatut teksti analüüsime, siis vaatame palju tekst vastavalt esinenud sõnadele mingis keeles punkte saab ning suurima punktiarvuga keele pakumegi vastusena välja. (veel…)

  • Share/Bookmark

Uus blog.tr.ee tulekul?

14.08.2007

Seoses teatud vajadustega tuli meil endil välja arendada tööriist, mis veebipõhiselt suudaks määrata suvalisel teisel veebilehel (peamiselt on silmas peetud blogisid) kasutatavat keelt. Kõige lihtsam oleks lasta sellist tegevust teha kasutajatel endil, kes siis alati ütleks, et mis keelse saidiga täpselt tegu on, aga kuna mul on siiski robotitehniline ja tööstusautomaatika taust (bakalaureuse kraad jõuelektroonika ja elektriajamite erialalt), siis juba ametiau ei luba lasta inimestel rohkem teha kui minimaalselt vajalik ning kõik mis saab jätta masinate hooleks, tuleb neile hooleks ka jätta.

Ühesõnaga töötasime välja keeleanalüsaatori, mis tunneb ära suvalise veebilehe keele ning kuna sellele oli vaja ka sobivat uhket nime nagu Nebukadnetsar või Babylon või Baja Island, siis kannab analüsaator nime Nemesis. Siiani Eritingimustel (utf-8, keel on süsteemis olemas jne) on süsteem andnud 100% korrektseid vastuseid, selgeks on saanud juba 12 14 (and counting) keelt kuid üsna kerge vaevaga saab keeli juurde õpetada. Vaja on analüüsiks vaid piisavalt palju lauseid – kui ees on ainult paar sõna, siis võib eksida küll. Samuti on hetkel veel probleeme osade mitte-euroopa kooditabelitega, täpsemalt on tuvastatud konflikt kooditabeliga win-1251 (süsteem kujutab miskipärast ette, et see on utf-8).

Anyhow, hea oleks kui lugejad seda süsteemi katsetaks ja teataks, kui mingi sait võltspositiivseid vastuseid annab ning soomekeelset saiti ungarikeelseks peab.

(Ja eriti uhke olen ma fakti üle, et prototüübi esimese versiooni minut kahekümne pealt on praeguseks analüüsi aeg vähenenud alla 0.1 sekundi ehk tervelt 800 korda :) )

  • Share/Bookmark