biolab / text-semantics

The package with scripts for semantic analyser project
MIT License
4 stars 5 forks source link

Izroček 2.X: vrednotenje in primerjava tehnik za iskanje ključnih besed #50

Closed BlazZupan closed 3 years ago

BlazZupan commented 3 years ago

Pripravimo korpus, kjer so dokumenti že označeni s ključnimi besedami (npr. članki v revijah). Na tem korpusu primerjamo tehnike za iskanje ključnih besed. Cilj je identificirati omejeno število tehnik, katerih točnost bi bila najboljša in katere bi potem uporabili v grafičnem uporabniškem vmesniku.

Izroček ni bil prvotno vključen v projekt, a smo ga opcijsko vključili, saj nam koristi pri nadaljnjem delu.

PrimozGodec commented 3 years ago

Pripravili smo štiri korpuse z že označenimi dokumenti. Dva v slovenščini in dva v angleščini.

Na zgoraj omenjenih člankih smo primerjali več pristopov za luščenje ključnih besed: TF-IDF, pristop z vekorskimi vložitvami, RAKE, Yake! in TextRank. Objektivne primerjave so predstavljene v naslednjih zvezkih:

Za referenco smo primerjali tudi pristope na besedili na katerih so primerjavo izvedli v literaturi. Gre za besedila v angleščini.

BlazZupan commented 3 years ago

Rezultati primerjave so res zanimivi. Med primerjavo so se tudi optimizirale nekatere tehnike, na primer vložitve v vektorske prostore z globokimi modeli. Ta pristop, ob uporabi korpusa, po kvaliteti sedaj celo prednjači na slovenskih besedilih. Tako, da bi bilo najbrž komentar na koncu primerjave, ki pravi "Iz grafov lahko sklepamo, da se na primeru člankov iz revije Elektrotehniški vestnik najbolje obneseta metodi TF-IDF in YAKE!. Sledi TextRank. Podobno se obneseta metodi z vložitvami, najslabše pa se obnese metoda RAKE." spremeniti oziroma osvežiti?

ajdapretnar commented 3 years ago

Če prav vidim, zgornja trditev še vedno velja. Ali govorimo o 04_07_specific_words_comparison_el_vestnik.ipynb?

BlazZupan commented 3 years ago

Se opravičujem, tule je prišla do izraza moja delna barvna slepota. Kar pomeni, da bi bilo dobro nekaj spremeniti v grafih. Kasneje, ni nujno, ampak pri člankih pa prav gotovo. YAKE in TF-IDF sta torej najboljša, in to konsistentno. Premisliti bo potrebno še o uporabi nadpomenk, kjer bo problem slovenščina. O tem bi razmišljali drugje.