Seoses teatud vajadustega tuli meil endil välja arendada tööriist, mis veebipõhiselt suudaks määrata suvalisel teisel veebilehel (peamiselt on silmas peetud blogisid) kasutatavat keelt. Kõige lihtsam oleks lasta sellist tegevust teha kasutajatel endil, kes siis alati ütleks, et mis keelse saidiga täpselt tegu on, aga kuna mul on siiski robotitehniline ja tööstusautomaatika taust (bakalaureuse kraad jõuelektroonika ja elektriajamite erialalt), siis juba ametiau ei luba lasta inimestel rohkem teha kui minimaalselt vajalik ning kõik mis saab jätta masinate hooleks, tuleb neile hooleks ka jätta.
Ühesõnaga töötasime välja keeleanalüsaatori, mis tunneb ära suvalise veebilehe keele ning kuna sellele oli vaja ka sobivat uhket nime nagu Nebukadnetsar või Babylon või Baja Island, siis kannab analüsaator nime Nemesis. Siiani Eritingimustel (utf-8, keel on süsteemis olemas jne) on süsteem andnud 100% korrektseid vastuseid, selgeks on saanud juba 12 14 (and counting) keelt kuid üsna kerge vaevaga saab keeli juurde õpetada. Vaja on analüüsiks vaid piisavalt palju lauseid – kui ees on ainult paar sõna, siis võib eksida küll. Samuti on hetkel veel probleeme osade mitte-euroopa kooditabelitega, täpsemalt on tuvastatud konflikt kooditabeliga win-1251 (süsteem kujutab miskipärast ette, et see on utf-8).
Anyhow, hea oleks kui lugejad seda süsteemi katsetaks ja teataks, kui mingi sait võltspositiivseid vastuseid annab ning soomekeelset saiti ungarikeelseks peab.
(Ja eriti uhke olen ma fakti üle, et prototüübi esimese versiooni minut kahekümne pealt on praeguseks analüüsi aeg vähenenud alla 0.1 sekundi ehk tervelt 800 korda
)