ufal / treex

Treex NLP framework
33 stars 6 forks source link

non-determinism probably in the IT-domain lemma guesser #34

Closed michnov closed 8 years ago

michnov commented 8 years ago

Aha, to podla mna skor ako gazetteery vyzera na ten moj wiki lemmatizator.

M.

Ahoj,
přeměřil jsem CS->EN na batch3q s nejnovějším Treexem
a výsledky kolísají mezi
20.53   6.1656 (tohle jsem poslal jako Pilot2) a
20.57   6.1680
ale spustil jsem to jen 4 krát, takže je asi možné se dostat i o pár setin pod Pilot2
(a to by mohlo vysvětlit to, cos naměřil na MT-Monkey).

Takže ano, jedná se o nedeterminismus (ještě jiný, než jsem reportoval Michalovi s koreferencí), např.
Gimp -> GIMP vs. GIMPS vs. Gimpa
googlu -> Google+ vs. Googol vs. Googe
macu -> Mac vs. Macur vs. Matsuo vs. Macc
JPG -> JPS vs. JPN vs. JPO
cloudu -> Cloud vs. Clouds

Zajímavé je, že je to jen pár výrazů v celém test setu,
ale existuje k nim většinou více než dvě varianty překladu.

Zatím jsem se nedíval do treexových souborů,
takže netuším, čím to je.
Přidávám do cc Michala, kterého třeba něco napadne.
To neznamená, že to má teď začít řešit
(naopak, deliverables do konce října teď mají přednost).
Třeba to vůbec s gazetteers nesouvisí.

Martin
tuetschek commented 8 years ago

Can't these be things that have the same number of counts in the training data, so their scores are equal and the order is random unless you force some kind of sorting ?

michnov commented 8 years ago

yes, for this issue I guess the reason is probably the one you mention. However, I'm just working on #8 and the non-determinism there results from something else.