coverified / backend

Backend for the CoVerified Widget
BSD 3-Clause "New" or "Revised" License
1 stars 1 forks source link

Deduplicate feed entries with same headlines #8

Closed schliflo closed 4 years ago

schliflo commented 4 years ago

maybe we need to check for differently encoded strings with the same decoded value like in this example from the RKI feed:

<item>
    <title>Kontakt&#173;personen&#173;nach&#173;ver&#173;folgung bei respira&#173;to&#173;rischen Erkran&#173;kungen durch das Corona&#173;virus SARS-CoV-2</title>
    <link>https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Kontaktperson/Management_Download.html</link>
    <pubDate>Thu, 16 Apr 2020 15:30:00 +0200</pubDate>
    <description>Die Hinweise in diesem Dokument k&#246;nnen der Situation vor Ort im Rahmen einer Risikobewertung durch das zust&#228;ndige Gesundheitsamt unter Ber&#252;cksichtigung der angestrebten Schutzziele angepasst werden.</description>
</item>
<item>
    <title>Kontaktpersonen&#173;nachverfolgung bei respiratorischen Erkrankungen durch das Coronavirus SARS-CoV-2</title>
    <link>https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Kontaktperson/Management.html</link>
    <pubDate>Thu, 16 Apr 2020 15:30:00 +0200</pubDate>
    <description>Die folgenden Hinweise k&#246;nnen der Situation vor Ort im Rahmen einer Risikobewertung durch das zust&#228;ndige Gesundheitsamt unter Ber&#252;cksichtigung der angestrebten Schutzziele angepasst werden.</description>
</item>