Closed matyaskopp closed 2 years ago
Další texty mezi odstavcy způsobené popisky obrázků: html na webu:
<figure class="b-detail__img">
<p class="img img--16x9" data-text-version="Načíst obrázek">
<a href="/fotogalerie/6675116?fid=7140570" class="img__holder img__holder--static" >
<img src="https://www.irozhlas.cz/sites/default/files/styles/zpravy_otvirak_velky/public/uploader/20180116_140618_180116-141801_dp.jpg?itok=E6m2j66T" alt="" />
</a>
</p>
<figcaption class="">
Na 99. kilometru D1 směrem na Prahu se srazilo deset nákladních aut, autobus a dvě nákladní auta. | Foto: Milan Kopecký | Zdroj: Český rozhlas
</figcaption>
</figure>
Vstupní data z 6.6.2022 sice obsahují html elementy ale není to původní formát, zachovány jsou elementy
<p>
a<h*>
, ale například<div>
je odstraněn.Proto současný skript špatně identifikuje embedované twitter prvky:
je ve vstupním formátu uloženo takto:
<p dir=\"ltr\" lang=\"es\">El Fluminense de Feira, de la Serie D brasile\u00f1a, utiliza los n\u00fameros de las camisetas para publicitar ofertas de un supermercado. pic.twitter.com\/jHlcIAtCKb<\/p>\u2014 David Acebal (@dacebal) 6 April 2017
A ve výstupu takto: