Document maps - specific words

Kaj se zgodi, ko dokumente opišemo samo z njim-specifičnimi besedami (določi specifične besede “na roko”). Skušamo zožiti opis dokumentov na manjše število besed (izrazov), ki so specifične vsaj za en dokument. Zanima nas, ali je nastala vizualizacija kaj bolj specifična, so na primer skupine dokumentov bolj vidne.

Najprej sem poizkusil tako, da izberem samo besede, ki so specifične za vsak dokument posebej (1, 2, 3 za vsak dokument). Izkazalo se je da to ne doprinese k večjemu ločevanju skupin. Vedno se najdejo dokumenti, ki so nekje vmes. Bilo je tudi kar nekaj dokumentov, ki so imeli samo ničle v TF-IDF. To praktično ni nič bolje, kot če sploh ne izbiram.

Potem sem prišel na drugo idejo. Kaj če izberemo samo besede, ki so specifične za že prej odkrite skupine. To se je izkazalo za boljši način. Vseeno so bolje vidne skupine. Še vedno je veliko osamelcev, ki so nekje vems in ne padejo v nobeno skupino. Verjetno je razlog za to, da je še vedno veliko dokumentov, ki imajo zelo različne tematike, poleg tega so ti dokumenti relativno kratki. Izbire "na roke" se nisem lotil, saj je način, ki sem ga ubral dobra simulacija tega, kar bi dejansko naredil, če bi besede izbiral ročno.

Tole je sicer malo goljufanja, saj izberemo značilke na podlagi skupin, ki jih želimo videti, ampak goljufanja ne bi bilo nič manj, če bi izbrial na roko.

biolab / text-semantics

Document maps - specific words #44