Kako deluje združevanje podobnih objav?
Gre za dokaj pameten algoritem, če jemljemo slovar kot nekaj zelo inteligentnega. Uporabil sem javno dostopen slovar osnovnih oblik besed (korpus, leme), ki ga dobite s kopanjem skozi povezave na slovenscina.eu in na Projektu JOS. Moj slovar je sicer malo predelan in vanj je dodanih nekaj besed oz. imen, ki se pogosto pojavljajo v slovenskih medijih.
S pomočjo slovarja dobim spisek besed v imenovalniku, ki se pojavijo v naslovu in uvodniku. Zatem z algoritmom za ugotavljanje "bližine besedil" dobim ven neko številko in če je nad nekim minimumom, ki je ročno postavljen, povežem dokumenta kot podobna.
Tako početje ima sicer en stranski učinek. Hitro izpostavi vsebino, ki jo mediji enostavno skopirajo iz STA in podobnih virov.
Ne, ta algoritem ni tako dober, kot tisti od Najdi.si ali Googla. Nimam iskalnika v ozadju in velike baze znanja, da bi se lahko sistem samostojno učil.