hlt-bme-hu / multiwsi

multi-lingual word sense induction
3 stars 2 forks source link

Frequency vs # of meanings #5

Open DavidNemeskey opened 8 years ago

DavidNemeskey commented 8 years ago

Frequent words might have more meanings than infrequent ones.

makrai commented 8 years ago

szerda @gaebor

makrai commented 8 years ago

nézzétek meg a /mnt/store/hlt/Work/MultiWSI/correlations.pdf -et, az jön ki, hogy a frekvenciával eléggé korrelál miden :disappointed: ndavid 5:47 PM hát ez rossz 5:47 de mondjuk nem meglepő 5:47 ha figyelembe vesszük, hogy valszeg mind Huang, mind Neelakantan a leggyakoribb szavakhoz rendelt több jelentést 5:48 mindjárt lefuttatom a jelentéskinyerést az adaptív neelákból, mert mint kiderült, ami most van, az a nem adaptív (edited) 5:48 ("valszeg mind Huang, mind Neelakantan a leggyakoribb szavakhoz rendelt több jelentést"-> mármint kézzel...) gaebor_hlt 5:58 PM most frissítettem az általam opus-ból készítettel (edited) ndavid 6:14 PM jó, azt láttam, hogy magas... gaebor_hlt 6:25 PM ezt most mire mondtad? ndavid 6:34 PM az opusra gaebor_hlt 7:20 PM ja, igen az egész jó lett szerintem ndavid 8:24 AM mármint rossz, mivel a frekkel korrelál

makrai commented 8 years ago

@kornai @DavidNemeskey @gaebor Angolra a legjobb korreláció embedding és szórát között a Neela--Longmen, a számokat lást lent. Ezt összehasonlítottuk azzal, hogy a gyakorisággal mennyire korrelál a Neela, és az jött ki, hogy Spearmanben a gyakorisággal jobban, Pearsonban pedig a gyakorisággal alig. Mit mondotok, hogyan interpretáljuk ezt? Szeretném magyarra és németre is megnézni ugyanezt. Magyarra csak azt nem tudom, hogy hol van a gyakorisági adat, németre két embedding kész, a harmadik készül; ha kész, jelentkezem.

(venv2)makrai@ron:/mnt/store/hlt/Work/MultiWSI$ python script/sense_counts/compare_sense_counts.py hom/neelakantan.en.MSSG.300D.30K.txt hom/ldoce4.hom.txt words 1 & words 2 & shared words & Spearman & Pearson & KL & JS & cos & Cohen \ 99156 & 30265 & 21715 & 0.226 @ 6.68e-250 & 0.222 @ 4.15e-240 & 0.194 & 0.0494 & 0.882 & 0.073 \ (venv2)makrai@ron:/mnt/store/hlt/Work/MultiWSI$ python script/sense_counts/compare_sense_counts.py hom/neelakantan.en.MSSG.300D.30K.txt freq/en.freq words 1 & words 2 & shared words & Spearman & Pearson & KL & JS & cos & Cohen \ 99156 & 400000 & 94044 & 0.649 @ 0.0 & 0.0456 @ 1.93e-44 & 3.75 & 0.627 & 0.0507 & 0.0 \

gaebor commented 8 years ago

Érdemes a gyakoriságot és a log-gyakoriságot is megnézni. A spearman-nak mindegy, de a pearson-t befolyásolhatja.

A német adatra is meg kell nézni, de egyébként tényleg már csak nézegetni kell, szerintem lezárhatod.

makrai commented 8 years ago

kiszámolnád a log-gyakoriságot? Mégsem zárnám le, inkább itt vitassuk meg a gyakoriságot.

DavidNemeskey commented 8 years ago

Na, nézve az adagramot, még jobbak az egyezések: LDOCE: words 1 & words 2 & shared words & Spearman & Pearson & KL & JS & cos & Cohen \ 476827 & 30265 & 28041 & 0.318 @ 0.0 & 0.336 @ 0.0 & 0.201 & 0.0496 & 0.88 & 0.0152 \ CED: words 1 & words 2 & shared words & Spearman & Pearson & KL & JS & cos & Cohen \ 476827 & 82024 & 37793 & 0.128 @ 2.14e-138 & 0.136 @ 4.37e-155 & 0.22 & 0.054 & 0.858 & 0.00837 \

Szerintem ez az első alkalom, hogy a CED 0.1 fölé tudott menni embeddinggel -- ez egy kicsit még a frekvenciánál is jobb (az 0.124/0.123 CED-en, 0.317/0.340 LDOCE-n).

makrai commented 8 years ago

parciális korreláció http://math.bme.hu/~koitomi/statprog2011osznegyedikgyak.html utolsó bekezdés a verekedések száma változóval lineáris regresszióval közelítjük mindkét változót külön-külön. A közelítéseket kivonjuk az igazi értékekből, és a különbségek változók között számolunk korrelációt.