ufal / media-irozhlas

0 stars 0 forks source link

Chybné rozdělení vět podle interpunkce u čísel #21

Open liskajiri opened 2 years ago

liskajiri commented 2 years ago

V doc-7637994.xml, verze dat: 20220611

Věta v článku: V jedné z hal v areálu 1. ČLTK na pražské Štvanici právě dokončila intenzivní dvouhodinový trénink a pochvaluje si, že už bude zase tenistkou, které rozhodčí počítají body.

Převedené na věty:

<s xml:id="doc-7637994.p6.s3"> <!-- V jedné z hal v areálu 1. -->
<s xml:id="doc-7637994.p6.s4"> <!-- ČLTK na pražské Štvanici právě dokončila intenzivní dvouhodinový trénink a pochvaluje si, že už bude zase tenistkou, které rozhodčí počítají body. -->

Mělo by jít o jednu větu, 1. ČLTK označuje název

matyaskopp commented 2 years ago

Ano, je to chyba, ale nejde to jednoduše opravit. Chyba je, že nástroj pro segmentaci na věty dává různé výsledky segmentace v závislosti na kontextu věty.

Pokud do nástroje pošlu celý odstavec, tak to nasegmentuje správně, ale pokud celý článek, tak už ne. Asi by se dala detekovat podezřelá místa a pustit to na problematické věty znovu s jiným kontextem, ale skript by se tím dost zkomplikoval.

Nyní kontroluji pouze, jestli se dobře provedla segmentace na úrovni odstavců - jestli věta nepřetéká do dalšího odstavce (za nadpisem není tečka, tak je přilepen k následujícímu odstavci)