Closed matyaskopp closed 2 years ago
not fixed !!!
grep -o '[^<]*doc-8504166.p2.s1"[^>]*><!--[^>]*>' /opt/irozhlas/data/data-out/udpipe/corpus-28.xml
s xml:id="doc-8504166.p2.s1"><!-- Čeští horolezci Marek Holeček a Radoslav Groh vylezli alpským stylem v Nepálu na horu Baruntse, která je vysoká 7129 metrů. -->
s xml:id="doc-8504166.p2.s1"><!-- Horolezci se spojili z Káthmándú s Lucií Výbornou a byli hosty středečního vysílání Radiožurnálu. -->
see: /opt/irozhlas/data/data-out/udpipe/corpus-71.xml
udpipe do not persist paragraphs (https://github.com/ufal/ParCzech/issues/151): concatenate these two articles:
fixed:
character within paragraph
This will be probably fixed with #12