Uus blog.tr.ee tulekul?

Seoses teatud vajadustega tuli meil endil välja arendada tööriist, mis veebipõhiselt suudaks määrata suvalisel teisel veebilehel (peamiselt on silmas peetud blogisid) kasutatavat keelt. Kõige lihtsam oleks lasta sellist tegevust teha kasutajatel endil, kes siis alati ütleks, et mis keelse saidiga täpselt tegu on, aga kuna mul on siiski robotitehniline ja tööstusautomaatika taust (bakalaureuse kraad jõuelektroonika ja elektriajamite erialalt), siis juba ametiau ei luba lasta inimestel rohkem teha kui minimaalselt vajalik ning kõik mis saab jätta masinate hooleks, tuleb neile hooleks ka jätta.

Ühesõnaga töötasime välja keeleanalüsaatori, mis tunneb ära suvalise veebilehe keele ning kuna sellele oli vaja ka sobivat uhket nime nagu Nebukadnetsar või Babylon või Baja Island, siis kannab analüsaator nime Nemesis. Siiani Eritingimustel (utf-8, keel on süsteemis olemas jne) on süsteem andnud 100% korrektseid vastuseid, selgeks on saanud juba 12 14 (and counting) keelt kuid üsna kerge vaevaga saab keeli juurde õpetada. Vaja on analüüsiks vaid piisavalt palju lauseid – kui ees on ainult paar sõna, siis võib eksida küll. Samuti on hetkel veel probleeme osade mitte-euroopa kooditabelitega, täpsemalt on tuvastatud konflikt kooditabeliga win-1251 (süsteem kujutab miskipärast ette, et see on utf-8).

Anyhow, hea oleks kui lugejad seda süsteemi katsetaks ja teataks, kui mingi sait võltspositiivseid vastuseid annab ning soomekeelset saiti ungarikeelseks peab.

(Ja eriti uhke olen ma fakti üle, et prototüübi esimese versiooni minut kahekümne pealt on praeguseks analüüsi aeg vähenenud alla 0.1 sekundi ehk tervelt 800 korda 🙂 )

16 thoughts on “Uus blog.tr.ee tulekul?”

  1. kiire test skype.com peal näitab, et pakutud keeled (va. lv ja lt, mida ei saanud testida) tunneb ära. valepositiivseid hakkab tulema keeltest, mida ta ei tunne ent proovib ikka: mõlemad portugali keeled ja hispaania keel arvatakse FR’iks, norra arvatakse rootsiks ja… korea keel LT’ks 😛

    skype peal testides on sul üle 20 keele lihtsalt käes

  2. No lisasin portugali ja hispaania keele ka juurde, nüüd siis tunneb juba 14 keelt ära. Valepositiivsed nende keelte kohta, mida süsteem ei tunne, tulevad paratamatult, kuna arvutatakse välja kõige tõenäolisem keel, mis olla võib, mitte ei võeta et üks ühele, kui on nii, siis on see keel ja kui teisit siis teine keel. Arvestatud on, et sait mis sisestatakse on ühes olemasolevas keeles. Pealegi me võime vajadusel sinna vabalt keeli kogu aeg juurde lükata.

    mid.ru annab vale tulemuse kuna neil on kasutusel juba eespoolmainitud win-1251 kooditabel, mida süsteem loeb utf-8’ks ja seega hakkab segast panema.

    Kuna süsteem on siiski optimiseeritud blogidele ja blogisid silmas pidades koostatud ning vähegi moodsad blogimootorid kipuvad ühest või teisest otsast kõik utf-8 peal olema, siis ei tohiks erilist probleemi tulla. Aga üritame muidugi ikka kõik kooditabelid tööle saada, et ka täiesti suvalist lehte analüüsida saaks.

  3. ja Sepp – miks skype veebileht läti keelt ei tunnista? Minu tagasihoidlike tähelepanekute kohaselt eelistab nagu enamvähem iga lätlane, kes vähegi netti kasutab, just Skypet kõikidele alternatiividele nagu msn jne.

  4. Isaj2nesest on ju tegu kohutavalt vahva asjaga, aga…
    Korralik veebileht annab ometi p2ises kaasa nii kasutava keele kui kooditabeli. Kas teeme uut IEd mis lollprogrameerija vigu parandab?

    P6nevad on segakeelsed veebilehed.
    N2iteks: http://et.wikipedia.org/wiki/Vene_keel
    arvatakse korrektselt eesti keelseks.
    Huvitaval kombel Vabalog http://vabalog.blogspot.com/ kah
    kuigi see sisaldab massiliselt inglise keelseid tsitaate ja m6ni artikkel ongi inglise keeles.

  5. Norra keelest rootsi tegemine on muidugi müstika, arvestades seda, et rootsi keeles puudub ø täht sootuks, esinedes vaid võõrnimedes. Taani ja norra keele vahel on raske pimesi vahet teha, aga rootsit on veidi lihtsam eristada.

    Mis aga puutub windowsi kooditabelitesse, siis selmet näidata ???, võiks ju välja pakkuda semi-intelligentse nimekirja, sest üldiselt on teada, millistes keeltes neid kooditabeleid sagedamini kasutatakse.

    Ladina tähestikul mittepõhinevate keeltega on sama lugu — kui lehel on puhas utf-8, siis saaks robot tabelist tähekoodid järgi vaadata ja selle järgi pakkuda, mis keelega võiks tegemist olla. Sest olgem ausad, ega heebrea või korea unikoodi vahemikku naljalt muude keelte jaoks ei kasutata. Araabia, sanskriti jt võivad muidugi mõneti raskemad täpselt arvata olla, aga mingi suuna peaks ikka kätte andma.

    PS – Nemesis, kättemaksujumalanna? Hmm.

  6. Norra keelt määrab ka nüüd õieti, vähemalt Skype rootsi ja norrakeelsetel esilehtedel (http://skype.com/intl/no/helloagain.html ja http://skype.com/intl/sv/helloagain.html) teeb vahet.

    Kooditabeli kontrolli hetkel pole. Süsteem on selline, et võtab etteantud utf-8 stringi ja siis ütleb et mis keeles see on. Kust see utf-8 string pärineb, on juba teine asi – demosüsteem võtab lihtsalt veebilehe ette, otsib sealt välja kogu saadaoleva teksti ja üritab seda utf-8 peale konvertida (mb_convert_encoding) ning siis alles söödab analüüsijale ette.

    Kuna aga blogide keeli määrame me mitte otse veebilehelt vaid rss feedist, siis seal probleemi pole, kuna selle teksti saame automaatselt utf-8-na kätte (kasutame simplepie rss parserit, mis väljastab automaatselt utf-8 formaati).

    Nemesis just sounded cool. No pun intended.

  7. @off
    Päisest vastava teabe väljalugemise korral ei oleks tegu mitte tuvastamisega vaid sedastamisega. Ma kipun arvama, et kõnealune koodijupp tuleb rakenduse töös appi siis, kui lihtviisiline määramine ei õnnestu. Vähemalt nii võiks oletada.

    @andris
    No kui teil niikuinii stringe analüüsitakse, siis tehke juba lehele vastav vorm ka, kuhu noored lingvistid saavad sisestada tundmatu teksti, et programm neile selle keelsuse ette ütleks.

  8. offtopic: no ma õppisin seda bakalaureust mingi sada aastat ja niiöelda vana õppekava peal, nii et tinglikult võin selle enda jaoks kraadiks lugeda küll. kuigi juriidiliselt võttes algab kraad tõepoolest magistrist.

    aabram: hea point, nüüd on vabateksti sisestamise võimalus olemas. Vähemalt terve lõik peaks vist olema teksti enne kui tuvastama suudab hataka, ennem annab tühja.

  9. Annab tõesti neti.ee ja photo.pri.ee keeled valesti. Kuid kõik need hädad pole seoses sellega, et keeleanalüsaator valesti töötaks, vaid selles et string, mis süsteemile ette antakse, on vigane. Neti.ee annab näiteks keelesaidi demo roboti pöördumisele tühja vastuse, mitte lehe sisu. Photo.pri.ee-st ei saa html-i vahelt korralikult teksti kätte ja läheb mingi segapudru, mis siis imelikul kombel portugali keelena tuvastatakse. Blog.tr.ee määrab vähemalt minu katses ilusti eestikeelseks.

    Kui nüüd võtta photo.pri.ee pealt või neti.ee-st terve lehekülje copy ja teha keelesaidi vabateksti kasti paste, nii et kogu kontrollitava saidi tekst kastis oleks, siis määrab süsteem keele õieti. Probleem seisneb jah mitte keeleanalüstaatoris, mis töötab väga hästi (missest et ainult süsteemile tuntud keelte raames), vaid demosaidi funktsioonis, mis url-i pealt sisu ära tõmbab ja seal on vead sees.

    Aga proovige keegi leida mõni blogi, mis oleks mõnes süsteemi poolt tuntud keeles ning mille keele süsteem valesti määraks (blogi puhul tõmmatakse ära rss fail ja kasutatakse tekstilise sisu jaoks hoopis seda, mitte konkreetset saiti ennast). Sest süsteem on ehitatud justnimelt blogisid silmas pidades, muude kohtade pealt võib tõepoolest veidi nõrgaks jääda.

Kommenteerimine on suletud.