Open liskajiri opened 2 years ago
Ano, je to chyba, ale nejde to jednoduše opravit. Chyba je, že nástroj pro segmentaci na věty dává různé výsledky segmentace v závislosti na kontextu věty.
Pokud do nástroje pošlu celý odstavec, tak to nasegmentuje správně, ale pokud celý článek, tak už ne. Asi by se dala detekovat podezřelá místa a pustit to na problematické věty znovu s jiným kontextem, ale skript by se tím dost zkomplikoval.
Nyní kontroluji pouze, jestli se dobře provedla segmentace na úrovni odstavců - jestli věta nepřetéká do dalšího odstavce (za nadpisem není tečka, tak je přilepen k následujícímu odstavci)
V
doc-7637994.xml
, verze dat:20220611
Věta v článku:
V jedné z hal v areálu 1. ČLTK na pražské Štvanici právě dokončila intenzivní dvouhodinový trénink a pochvaluje si, že už bude zase tenistkou, které rozhodčí počítají body.
Převedené na věty:
Mělo by jít o jednu větu,
1. ČLTK
označuje název