ufal / treex

Treex NLP framework
33 stars 6 forks source link

non-determinism in A2T::CS::MarkTextPronCoref #8

Closed michnov closed 8 years ago

michnov commented 9 years ago

Bug description from @martinpopel's email.

Ahoj Michale, tak jsem se podíval na ten nedeterminismus a přijde mi, že to přece jen bude mít na svědomí tvůj kód.

ttred cs-en/batch2q/runs/$ANY/treexfiles/0011.streex##15

Rozdíl je v tom, že ve větě "Mám notebook zapojený, ale říká mi to, že [#PersPron] funguje na baterie." někdy ten generovaný perspron má $tnode->wild->{referential} = 1 a někdy 0. Podle mě za to může blok A2T::CS::MarkTextPronCoref, kde jsi jako autor uveden ty.

Zaujaly mě na této větě dvě věci (které se týkají koreference v MT a mohly by tě zajímat):

V "říká mi to, že" zde se "to" správně určí jako podmět na t-rovině, ale pak se to schová na t-rovině, nejspíš kvůli A2T::CS::MarkEdgesToCollapse expletives=1. Možná bys mohl (s Ondrou Duškem, autorem toho kódu) vylepšit detekci expletiv a zamezit těmto false positives.

ACT pod "říká" je tedy generovaný #PersPron, na který odkazuje koreferenční šipka z ACToru pod "funguje", tedy v těch případech, kdy se označí jako referential=1. Tato šipka se objeví i v přeloženém anglickém t-stromě. Jenže horní ACTor má gender=nr a dolní gender=anim. Nechybí nám blok, který by (v angličtině) zajistil stejný gender v celém coref chain?

Martin