ufal / media-irozhlas

0 stars 0 forks source link

vstupní data neobsahují informaci o segmentaci na odstavce/podnadpisy #19

Closed matyaskopp closed 2 years ago

matyaskopp commented 2 years ago

Nová data(pole perex a text) jsou v textové podobě (původně byly v html). Při odstranění html tagů došlo k zřetězení sousedících odstavců/podnadpisů a tím se některá slova zřetězila.

https://www.irozhlas.cz/kultura/kulturni-tipy-vila-tugendhat-knihy-vernisaz-vystava-kvety-koncert-capek_2006021351_tzr

V\u00fdstava o bratrech \u010capkov\u00fdchLoupe\u017en\u00edkova L\u00e1sky hra osudn\u00e1 \u2013 to

Potřebujeme mít informaci, o oddělovačích odstavců, aby při lingvistickém zpracování nedošlo k chybné segmentaci na věty.

Možná řešení:

  1. použít původní html kódování v polích perex a text
  2. přidat oddělovač mezi odstavce a mezi odstavce a nadpisy
matyaskopp commented 2 years ago