biolab / text-semantics

The package with scripts for semantic analyser project
MIT License
4 stars 5 forks source link

Izroček 3.3: Delotok in ustrezne komponente za izris in interaktivno analizo kart dokumentov #76

Closed BlazZupan closed 2 years ago

BlazZupan commented 3 years ago

V sklopu tega izročka razvijemo niz komponent, s katerimi lahko izrišemo karte dokumentov in te analiziramo s stališča semantične podobnosti in pojmov, ki jih izbere uporabnik. V sklopu tega izročka načrtujemo razvoj sledečih gradnikov:

PrimozGodec commented 2 years ago

Razvili smo gradnik Word List, kjer lahko uporabnik pripravi sezname pojmov, med njimi preklaplja in jih shrani. Gradnik omogoča tudi nalaganje seznamov pojmov iz datotek in njihovo shranjevanje v datoteke. Gradnik lahko prejme tudi seznam pojmov iz drugih gradnikov. Razvili smo gradnik Extract Keywords, ki iz besedil na vhodu izlušči ključne izraze. Za luščenje izrazov lahko uporabnik izbira med štirim metodami: TF-IDF, YAKE!, Rake in metodo na podlagi vektorskih vložitev. Razvili smo gradnik Score Documents za točkovanje dokumentov na podlagi besed, ki jih gradnik dobi na vhodu. Gradnik v kombinaciji z gradnikom t-SNE omogoča prikaz označenih dokumentnih map (Annotated Document Map). Delotok, ki vključuje vse razvite komponente, in ki v kombinaciji omogoča izrise in interaktivno analizo kart dokument, prikazujemo spodaj.

PrimozGodec commented 2 years ago
Screenshot 2021-12-05 at 11 46 01
BlazZupan commented 2 years ago

Dokončano. Gradnike na primerih uporablja tudi naročnik.