Izroček 2.2: ocenjevanje podobnosti dokumentov

BlazZupan commented 3 years ago

Izroček 2.2: knjižnica in primeri uporabe metod za izračun podobnosti dokumentov. Osnovne uporabljene tehnike bodo vključevale predobdelavo s postopkom TF-IDF, kosinusno razdaljo ter razdalje na podlagi vektorskih predstavitev besedil z globokimi modeli.

PrimozGodec commented 3 years ago

V 03_02_distances_and_similarities.ipynb vzorec dokumentov iz predlogov vladi prestavimo z vrečo besed (z uporabo TF-IDF) in vektorskimi vložitvami. Implementirali smo funkcijo za računanje kosinusnih podobnosti med dokumenti in na podlagi podobnosti pokazali zmožnost iskanja podobnih dokumentov izbranemu dokumentu. Podobne dokumente smo tudi izpisali, da se lahko bralec prepriča o podobnosti. Za konec smo izrisali še dendrogram, ki prikaže nekaj podobnih predlogov in njihovo podobnost.

Implementirali smo štiri pristope za iskanje ključnih besed v dokumentih:

04_01_specific_words_with_embeddings.ipynb implementira in prikaže iskanje specifičnih besed s pomočjo podobnosti vektorskih vložitev dokumentov in besed na dva načina: 1) na podlagi vseh besed v korpusu, 2) na podlagi samo besed iz dokumenta
04_02_specific_words_with_enrichment.ipynb implementira in prikaže iskanje specifičnih besed z pristopom imenovanim obgatitev besed (ang. Word enrichment).
04_03_specific_words_with_tfidf.ipynb implementira in prikaže iskanje specifičnih besed s pristopom TF-IDF

Delovanje vsakega od pristopov pokažemo na dveh izbranih dokumentih in na koncu na besedilih, ki smo jih identificirali kot podobne v 03_02_distances_and_similarities.ipynb. V 04_05_specific_words_comparison.ipynb empirično primerjamo vse štiri naštete pristope in preverimo podobnost izbranih besed med pristopi.

BlazZupan commented 3 years ago

Dela na tem izročku so zaključena.

mihajMJU commented 3 years ago

Tale zapis je pa sploh razmislek o ideji. Upam, da ne povzročam preveč smetenja. Iskanje besed specifičnih za dokumente (vse tri variante) se zdi dobra osnova tudi za samostojne funkcionalnosti orodja. To bi bilo uporabno za določanje ključnih besed, slovarje ... tudi za vrste zapisov, ki niso sintakse semantičnega spleta Podobnost med dokumentom in besedo - tudi to bi bila lahko posebna funkcionalnost. Iz enega dokumenta bi dobili ključne besede, potem bi izmed teh lahko izbrali določene ali vse in poiskali podobne dokumente. (to bi pokrilo že dosti potreb pri delu z zakonodajo - tako za OAO, kot pripravljalce zakonodaje, kot ocenjevalce učinkov ipd.

Primerjava 04_04 pa se ne odpre, Page not found (https://github.com/biolab/text-semantics/blob/main/examples/04_04_specific_words_comparison.ipynb). https://github.com/biolab/text-semantics/blob/main/examples/04_04_specific_words_comparison.ipynb

ajdapretnar commented 3 years ago

@mihajMJU V tem času so bile datoteke preštevilčene. Se opravičujemo za zmedo. Tukaj je nova povezava: https://github.com/biolab/text-semantics/blob/main/examples/04_05_specific_words_comparison.ipynb

PrimozGodec commented 3 years ago

@mihajMJU sem popravil nedeljučo povezavo.

mihajMJU commented 3 years ago

Super! Hvala. Tole pa zgleda res zelo blizu možnosti samostojne dodatne funkcionalnosti. Boste v ponedeljek še kaj povedali.

PrimozGodec commented 3 years ago

Tale zapis je pa sploh razmislek o ideji. Upam, da ne povzročam preveč smetenja. Iskanje besed specifičnih za dokumente (vse tri variante) se zdi dobra osnova tudi za samostojne funkcionalnosti orodja. To bi bilo uporabno za določanje ključnih besed, slovarje ... tudi za vrste zapisov, ki niso sintakse semantičnega spleta Podobnost med dokumentom in besedo - tudi to bi bila lahko posebna funkcionalnost. Iz enega dokumenta bi dobili ključne besede, potem bi izmed teh lahko izbrali določene ali vse in poiskali podobne dokumente. (to bi pokrilo že dosti potreb pri delu z zakonodajo - tako za OAO, kot pripravljalce zakonodaje, kot ocenjevalce učinkov ipd.

Tole je dober komentar. Ravno zaradi tega, ker se nam ta funkcionalnost zdi pomembna in uporabna smo se tudi lotili nadaljnjega raziskovanja v okviru dodatnega izročka 2.X. Funkcionalnost iskanja specifičnih besed in podobnosti med besedami in dokumenti bo zagotovo vključena v orodje, ki ga bomo implementirali v fazi 3.

biolab / text-semantics

Izroček 2.2: ocenjevanje podobnosti dokumentov #30