noviCEV - Potok svežih novic!

Pogosta vprašanja in odgovori

Kaj je to?

Moj mali eksperiment. Z njim opazujem gibanje zanimanja v slovenskem (spletnem) medijskem prostoru. Ko dobim novo idejo, spremenim algoritme in prikaz. Včasih je sprememba dobra, včasih ne ... Je odprt za vse, ki vas zanima kaj je trenutno popularno pri nas oziroma kaj se Slovencem zdi pomembno nek dan.

Prikazujejo se objave, ki so mlajše od 24 ur, tako da je vsebina vedno sveža.

Kakšno ime je noviCEV?

Gre za delovno ime. Ni nujno, da ostane. Enkrat mi je padlo na pamet in iz njega sem razvil ta servis. Zamislil sem si vrtni šlauf iz katerega tečejo novice. Včasih hitreje, učasih počasneje ... Ja, sanjaril sem o vročem poletju. Upam, da mi ne zamerite. :)

Kaj pomenijo številke v modrih balončkih?

Številka pomeni popularnost. Je kombinacija Facebook, Google+, Linkedin, Pinterest in Twitter objav, Facebook všečkov in Facebook komentarjev. Algoritem se s časom spreminja glede na uspešnost posameznih "dejanj" pri razširjanju objav.

Kaj pomeni najbolj popularno?

Razloženo pod Kaj je to.

Zakaj niso najpopularnejše novice po vrsti?

So po vrsti, vendar v drugačni vrsti, kot deluje na prvi pogled. Objave so objavljene po algoritmu, ki upošteva število glasov in svežino objave. Članki, ki dobijo kmalu po objavi več točk, splavajo višje kot tisti, ki jih nabirajo skozi daljše obdobje. Temu rečemo "vroči" algoritem in je podoben tistemu, ki ga uporablja Reddit.com.

Kje dobiš novice?

Javno dostopni kanali medijev. Trenutno berem okoli 40 različnih slovenskih medijev različnih velikosti. Če se ti zdi, da sem katerega pomembnega pozabil, mi pošlji povezavo.

Zakaj je ločen razdelek samo za Obalo in Kras?

Kar je tam moj dom in so mi takšne informacije pomembne. :)

Algoritem, ki ugotavlja "lokalnost" je dokaj neumen. V besedilu išče besede povezane z Obalo in imeni, ki se pogosto pojavljajo pri nas. Pogosto to povzroči "false positives". Zadeva ne uporablja niti algoritma, ki ga koristim za ugotavljanje podobnosti objav, tako neumno je. Je pa dovolj za pokrivanje moje radovednosti, vsaj kar se domačih krajev tiče.

Kako deluje združevanje podobnih objav?

Gre za dokaj pameten algoritem, če jemljemo slovar kot nekaj zelo inteligentnega. Uporabil sem javno dostopen slovar osnovnih oblik besed (korpus, leme), ki ga dobite s kopanjem skozi povezave na slovenscina.eu in na Projektu JOS. Moj slovar je sicer malo predelan in vanj je dodanih nekaj besed oz. imen, ki se pogosto pojavljajo v slovenskih medijih.

S pomočjo slovarja dobim spisek besed v imenovalniku, ki se pojavijo v naslovu in uvodniku. Zatem z algoritmom za ugotavljanje "bližine besedil" dobim ven neko številko in če je nad nekim minimumom, ki je ročno postavljen, povežem dokumenta kot podobna.

Tako početje ima sicer en stranski učinek. Hitro izpostavi vsebino, ki jo mediji enostavno skopirajo iz STA in podobnih virov.

Ne, ta algoritem ni tako dober, kot tisti od Najdi.si ali Googla. Nimam iskalnika v ozadju in velike baze znanja, da bi se lahko sistem samostojno učil.

Kako se bo ta aplikacija razvijala?

Nimam nekih posebnih planov. Gre za moj peskovnik, kjer implementiram ideje, ki mi pridejo na pamet ob tistih trenutkih, ko me internet ne moti ... v podrobnosti se tukaj ne bom spuščal, ker je verjetno že vsem jasno. :)

En od planov je narediti mobilno aplikacijo, en drugi plan je razširiti vire na Twitter, Facebook in Google+ ...

Če imate kakšno idejo kako bi te algoritme ali aplikacijo uporabili na zanimiv način, dobite moje kontakte na mojem blogu. Tam je verjetno objavljen tudi kakšen plan.