Script for extracting keywords and notebook with document maps explanation

V tem PRju smo premaknili skripto z metodami za izluščitev ključnih besed v textsemantics mapo in poenotili funkcije z metodami za izluščitev ključnih besed. Tem smo tudi dodali preprocesiranje v primeru, da funkcija dobi tekst, ki še ni tokeniziran. Dodali smo tudi zvezek z razlago dokumentnih map.

Nekaj za diskusijo:

Večini funkcij (razen enrichment) nisem dodal možnsti za background_text, saj njihove implementacije tega ne omogočajo ali pa so dovolj hitre, da ni ptrebno. Tako te možnost nisem dodal za TFIDF, saj je izluščitev ključnih besed v primeru, ko bi luščili samo iz določenih dokumentov ostali pa bi bili referenca ni nič hitreje kot luščeneje ključnih besed iz vseh dokumentov. Pri Yake in TextRank to ni smislno zaradi tega, ker metodi delata na individualnih dokumentih. Pri embedding bi to lahko implementiral vendar nima nobene prednosti proti temu, da iščemo ključne besede za vse dokumente. V bistvu bi metodo še nekoliko zakompliciral, saj bi moral ugotaljati kateri dokumenti iz background data so enaki tistim za katere iščem ključne besede, da ga izločim iz povprečja razdalj.
Pri zvezku nisem imel druga ideje za razlago skupin, kot da izračunam ključne besede na dokumentih in vzamem tiste najbolj pogoste za skupino. Metoda, ki lušči besede za celo skupini, ki smo jo uporabili pri drugih dokumentnih karah (z emebeddingi) na vseh iskalnikih ključnih besed ne deluje.

biolab / text-semantics

Script for extracting keywords and notebook with document maps explanation #49