postlight / parser

📜 Extract meaningful content from the chaos of a web page
https://reader.postlight.com
Apache License 2.0
5.42k stars 445 forks source link

Stripping src element #734

Open felagund opened 1 year ago

felagund commented 1 year ago

Expected Behavior

Image should be shown

Current Behavior

Image is not shown and istead its alt text is shown

Steps to Reproduce

When processing this url: https://denikreferendum.cz/clanek/34961-nova-vlna-teroru-a-nasili-v-palestine-a-izraeli-a-cesky-postoj

The following code:

<div class="articleImage svelte-1l459ay">
   <div class="drImageResizeButton svelte-1l459ay"><span>↗</span></div>
   <img alt="Jako již tradičně, český většinový pohled na&nbsp;izraelsko-palestinský konflikt je&nbsp;posunutý k&nbsp;nekritické podpoře Izraele. Typickým stereotypem je, že když spáchá násilnost Palestinec, je&nbsp;to teroristický útok, a&nbsp;když obdobnou násilnost spáchá židovský osadník, je&nbsp;to prostě násilnost. Foto FB&nbsp;jewish-eshop.cz" class="svelte-1l459ay visible" src="https://static.denikreferendum.cz/pictures/49089/article_body/49089.jpg" style="min-height: auto; height: 467px;"> 
   <div class="articleImageLabel svelte-1l459ay">Jako již tradičně, český většinový pohled na&nbsp;izraelsko-palestinský konflikt je&nbsp;posunutý k&nbsp;nekritické podpoře Izraele. Typickým stereotypem je, že když spáchá násilnost Palestinec, je&nbsp;to teroristický útok, a&nbsp;když obdobnou násilnost spáchá židovský osadník, je&nbsp;to prostě násilnost. Foto FB&nbsp;jewish-eshop.cz</div>
</div>

is stripped of its src element, so it results in the alttext being shown instead (so it is duplicated, because that text is then on the website inclued in the next element.

Detailed Description

This is as consumed by NewsBlur. I was asked to open an issue here, I hope they will be able to fill in the technical details, I have no idea how it is hooked together.

It then looks like this: 5f15e30aa93a351b0d39ce7c328d73be6a075ef0

dwirandyh commented 9 months ago

any update about this?