Closed matyaskopp closed 2 years ago
Nová data(pole perex a text) jsou v textové podobě (původně byly v html). Při odstranění html tagů došlo k zřetězení sousedících odstavců/podnadpisů a tím se některá slova zřetězila.
perex
text
https://www.irozhlas.cz/kultura/kulturni-tipy-vila-tugendhat-knihy-vernisaz-vystava-kvety-koncert-capek_2006021351_tzr
V\u00fdstava o bratrech \u010capkov\u00fdchLoupe\u017en\u00edkova L\u00e1sky hra osudn\u00e1 \u2013 to
Potřebujeme mít informaci, o oddělovačích odstavců, aby při lingvistickém zpracování nedošlo k chybné segmentaci na věty.
Možná řešení:
Nová data(pole
perex
atext
) jsou v textové podobě (původně byly v html). Při odstranění html tagů došlo k zřetězení sousedících odstavců/podnadpisů a tím se některá slova zřetězila.https://www.irozhlas.cz/kultura/kulturni-tipy-vila-tugendhat-knihy-vernisaz-vystava-kvety-koncert-capek_2006021351_tzr
V\u00fdstava o bratrech \u010capkov\u00fdchLoupe\u017en\u00edkova L\u00e1sky hra osudn\u00e1 \u2013 to
Potřebujeme mít informaci, o oddělovačích odstavců, aby při lingvistickém zpracování nedošlo k chybné segmentaci na věty.
Možná řešení:
perex
atext