Veel keeletuvastusest

earth.png

Nagu ikka, tuleb kõigepealt ise jalgratas leiutada ja alles siis uurida, et kas keegi juba varem midagi taolist teinud pole. Tavaliselt on.

Igatahes, viimased paar päeva olen uurinud n-gram’ide teooriat ehk seda, mis on (reeglina) keeletuvastuse taga (muuhulgas saab n-gram’e ka teisteks vajadusteks kasutada, aga konkreetselt on siis juttu keeletuvastusest).

Meie süsteemis käivad asjad küll natuke teisiti, meie nimelt arvutame kokku üldise sõnade esinemise (mitte järgnevuse) sageduse mingis keeles ning omistame igale sõnale teatud punktide arvu (ja seda logaritmiliselt, kuna vähemalt üks keerulisem valem peaks ikka süsteemis kasutusel olema või mis). Ja kui nüüd mingit tundmatut teksti analüüsime, siis vaatame palju tekst vastavalt esinenud sõnadele mingis keeles punkte saab ning suurima punktiarvuga keele pakumegi vastusena välja. Loe edasi: Veel keeletuvastusest

Uus blog.tr.ee tulekul?

Seoses teatud vajadustega tuli meil endil välja arendada tööriist, mis veebipõhiselt suudaks määrata suvalisel teisel veebilehel (peamiselt on silmas peetud blogisid) kasutatavat keelt. Kõige lihtsam oleks lasta sellist tegevust teha kasutajatel endil, kes siis alati ütleks, et mis keelse saidiga täpselt tegu on, aga kuna mul on siiski robotitehniline ja tööstusautomaatika taust (bakalaureuse kraad jõuelektroonika ja elektriajamite erialalt), siis juba ametiau ei luba lasta inimestel rohkem teha kui minimaalselt vajalik ning kõik mis saab jätta masinate hooleks, tuleb neile hooleks ka jätta.

Ühesõnaga töötasime välja keeleanalüsaatori, mis tunneb ära suvalise veebilehe keele ning kuna sellele oli vaja ka sobivat uhket nime nagu Nebukadnetsar või Babylon või Baja Island, siis kannab analüsaator nime Nemesis. Siiani Eritingimustel (utf-8, keel on süsteemis olemas jne) on süsteem andnud 100% korrektseid vastuseid, selgeks on saanud juba 12 14 (and counting) keelt kuid üsna kerge vaevaga saab keeli juurde õpetada. Vaja on analüüsiks vaid piisavalt palju lauseid – kui ees on ainult paar sõna, siis võib eksida küll. Samuti on hetkel veel probleeme osade mitte-euroopa kooditabelitega, täpsemalt on tuvastatud konflikt kooditabeliga win-1251 (süsteem kujutab miskipärast ette, et see on utf-8).

Anyhow, hea oleks kui lugejad seda süsteemi katsetaks ja teataks, kui mingi sait võltspositiivseid vastuseid annab ning soomekeelset saiti ungarikeelseks peab.

(Ja eriti uhke olen ma fakti üle, et prototüübi esimese versiooni minut kahekümne pealt on praeguseks analüüsi aeg vähenenud alla 0.1 sekundi ehk tervelt 800 korda 🙂 )

Blogide top 100

Nüüdsest on Blog.tr.ee-s nähtaval ka blogide top ehk siis 100 vaadatuma blogi nimekiri. Lingi top-i juurde leiad blog.tr.ee lehe alumisest otsast (link on muidu see).

Top kujutab endast viimase 3 kuu jooksul enim vaadatud blogide nimekirja. Tegelikult oli meil see üleval juba ammu, aga tollal oli kohe-kohe tulemas Ajaveeb 2007 konkurss ning me ei tahtnud et olemasolev tabel kedagi mõjutaks või tõenäolisi tulemusi reedaks.

Igatahes, nüüd siis on top ilusti nähtav siis siin.

Blog.tr.ee võitis WSA auhinna

wsa.jpg

Blog.tr.ee meeskond käis täna Kohtu tänaval Teaduste Akadeemia majas ITLi korraldataval IKT hariduse edendamise programmi avaüritusel. Nimelt muu hulgas kuulutati seal välja ka selleaastased World Summit Award Eesti eelvooru võitjad, kust ka meie lootsime osa saada.

Blog.tr.ee kandideeris e-meelelahutuse kategoorias ja tänu õnnele, fortuunale, heale teostusele ja sajale muule kokkulangevusele, õnnestuski oma kategooria ka kinni panna. Auhinnaks siis sinisest klaasist väänatud vastavate graveeringutega trofee ning võimalus osaleda juba ülemaailmsel WSA konkursil.

(Muuhulgas õnnestus mul järgnenud banketi käigus kogemata Allan Martinsoni varvastel talluda, niiviisi korralikult, ikka kannaga – no ma tõesti ei näinud kohvitassiga laua äärest taganedes ja teistele ruumi tehes, et keegi täpselt mu taga seisab. Sorry about that.)

Loe edasi: Blog.tr.ee võitis WSA auhinna

Ajaveeb 2007

blogtree_dark.jpg

Alanud on konkurss Ajaveeb 2007, mille raames püütakse siis välja selgitada Eesti parimad ajaveebid.

Seekord on tehtud koostööd ka meie saidiga blog.tr.ee, mille kaudu toimub hääletamine – Ajaveeb.ee enda lehelt hääletada ega kommenteerida ei saa. Oma hääle andmiseks pole vaja teha midagi muud, kui kasutada blog.tr.ee-d täpselt samamoodi nagu alati. Ainus erinevus on selles, et nüüd on üleval blog.tr.ee roheliser freimil koht, kus saab parasjagu eesolevale blogile hääle anda.

Samuti saab anda kaasa vabalt valitud “silte” ehk et tavapärane teemade eelvalik puudub. Kasutajate antud siltide põhjal kujunevadki siis põhikategooriad. Samuti saab hääletusvormi kaudu jätta blogile oma kommentaari.

Osalemiseks konkursil peab blogi olema registreeritud blog.tr.ee kataloogis. Samuti saab iga blogi panna enda lehele vastava logo, millele vajutades blogi külastajad siis hääletusvormi juurde saaks. Võimalikudnupud leiad siit.

Loe konkursi kohta lähemalt Ajaveeb.ee lehelt.

IT Kolledži Uudishimupäev

Kuna minulgi on antud ürituses väike roll täita, siis panen siia üles uudise IT Kolledži kodulehelt

IT Kolledž ootab kolmapäeval, 21. märtsil Uudishimupäevale rekordiliselt palju noori, milleks annab alust eelmise aasta rekordiline vastuvõtt ja tänavune varasemast aktiivsem huvitundmine. Uudishimupäeval räägitakse noortele blogimisest, tutvustatakse kooli ja vaadatakse koos Ilmar Raagiga tema uut filmi “Klass”. Et kolledži neosaal ei mahuta korraga rohkem kui 160 noort, on kolledžil palve, et kõik uudishimupäevale tulla soovijad ennast eelnevalt registreeriksid.

“Seekordsele uudishimupäevale, mis on traditsiooniliselt meie kõrgkooli variant lahtiste uste päevadest, ootame varasemast rohkem noori ja on väike mure, et mitte kõik soovijad ei tarvitse ära mahtuda,” rääkis IT Kolledži rektor Kalle Tammemäe. “Just sellepärast palume noortel varakult ennast IT Kolledži kodulehel registreerida. Ruumikitsikusest saame üle tuleva aasta algul kui valmib uus õppehoone, praegu aga palume mõistvat suhtumist.”

IT Kolledži turundusjuhi Marje Meenovi sõnul oodatakse 21. märtsil toimuvale uudishimupäevale eelkõige õpilasi, kes ei ole veel otsustanud, et mis on see, mida nad siin elus teha tahaksid või mis on see eriala, mida nad õppima peaksid, et oma unistusi teostada. Loe edasi: IT Kolledži Uudishimupäev

Kampaania: blog.tr.ee asutajad miljonäriks!

million.jpg

Kuna päris paljud on välja käinud idee, et nad oleksid nõus blog.tr.ee-d omalt poolt väikese annetusega toetama, siis nüüdsest on käimas kampaania “blog.tr.ee asutajad miljonäriks!” – sest mis oleks veelgi meeldivam, kui veel mõningad it miljonärid Eestis 🙂

Oma panuse saad teha lihtsalt – saada vaid sõnum märksõnadega TR TOETA SINUNIMI numbrile 1311 (5kr) või 13011 (10kr) või 13013 (25kr) ja oledki ühe hea teo võrra rikkam! Enda nime ei pea muuseas kirja panema, kui soovi selleks pole, sobivad ka vaid kaks esimest märksõna – meil ükskõik, peaasi et selle sõnumi saadad.

Kui palju veel miljonist puudu ja kui palju juba kogutud on võib näha blog.tr.ee esilehel ning graafikuna ka siin

Blog.tr.ee kolis jälle

Võibolla mõned on juba tähele pannud blog.tr.ee lehe kiiremat laadimist võrreldes näiteks nädala taguse ajaga ning võibolla ollakse ka märganud väikest zone kasti lehel, mis lubab domeene endale tellida. Nimelt tuli siiski oma sõnu süüa ja peab tunnistama, et blog.tr.ee on siiski vastupidiselt algul väidetule, mille järgi ei tule blog.tr.ee enam kunagi Eestisse, siinmail jälle tagasi. Kolimata on veel news.tr.ee ja ka nimeserveriteks on endiselt mediatemple omad, aga ega nendegagi enam tõenäoliselt kaua lähe.

Ehk et ühesõnaga, blog.tr.ee sai odava hostingu näol omad vitsad kätte. Tegelikult on nii, et kasutatud Mediatemple – siiani kristallpuhta renomeega – sattus täpselt meie kolimisajal andmebaasiserveritega suurtes raskustes olema. Tagajärjeks oligi teadagimis – peaaegu olematu toimivus blog.tr.ee poolt. Lehte tuli oodata kaua ja kui ta lõpuks ette tuli, siis seisis ka seal enamusest ajast kiri, et database connection failed.

Ja nüüd siis olemegi majutatud Eesti parima hostingupakkuja Zone serverites.

Minu isiklikud kogemused on olnud zone teenustega üsna pikajalised ja üsna positiivsed. Esimesed zones majutatud domeenid, millega ma kokku puutusin, olid ’90 lõpus www.elisa.ee (sel ajal oli radiolinja veel radiolinja ja keegi ei teadnudki miskist elisast, domeen kuulus ühe sõbraga seotud firmale) ning veebimarket.ee või veebipood.ee või miskit sellist sellist. Loe edasi: Blog.tr.ee kolis jälle

Sulle ei meeldi Blog.tr.ee? Kirjuta see ümber!

opensource.jpg

Jep, nii see on, blog.tr.ee goes open source (GNU GPL litsentsi alusel). Kui sul on mingeid vastuväiteid blog.tr.ee toimivuse kohta või on sinu arust puudu mingi ülioluline funktsioon, milleta sa kuidagi elada ei saa ning sa tead mis on php ja mysql, siis nüüdsest palun väga – tõmba endale blog.tr.ee koopia (lingi saad siit) ja installi see oma serverisse (võtab maksimaalselt 5 minutit). Tee omad parandused ja pane need üles lehele flyspray.tr.ee. Kui tegu on väärt ettepanekuga, siis pole meil mitte midagi selle vastu, et vastavad muudatused ka blog.tr.ee põhikoodis sisse viia.

Loe edasi: Sulle ei meeldi Blog.tr.ee? Kirjuta see ümber!