google-code-export / amcat

Automatically exported from code.google.com/p/amcat
0 stars 0 forks source link

ontdubbelaar ontdubbelt onterecht #585

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Hey allen,

Ik weet niet precies wie hier verantwoordelijk voor is maar ik denk dat het 
voor iedereen belangrijk is om te weten:

Ik kwam er vandaag achter dat 'vandaag de dag' onterecht wordt ontdubbeld. Dit 
programma wordt altijd in 4 delen geleverd, omdat het programma 4x onderbroken 
wordt door het journaal. Aangezien deze 4 delen worden ingeladen met hetzelfde 
medium, titel en datum denk AmCAT dat deze 4 dubbelen zijn er worden er 
automatisch 3 verwijderd. DIT IS FOUT! het zijn 4 delen.

Waarschijnlijk is dit gebeurd bij alle dagen van vandaag de dag en wie weet nog 
wel bij meer media. 

1. kan iedereen even kijken / denken waar dit nog meer gebeurd kan zijn?
2. is het mogelijk dat de ontdubbelaar bij wordt gewerkt zodat deze meer 
criteria heeft voordat hij iets als dubbel ziet? Martijn / Toon / Wouter?
3. Kasper kun jij kijken of je deze 4 delen voortaan automatisch een andere 
naam kan geven?

Bedankt,
Kim

Original issue reported on code.google.com by kimjans...@nieuwsmonitor.net on 7 Sep 2013 at 2:32

GoogleCodeExporter commented 9 years ago
Ik heb net ook dit issue aangemaakt, met de meer algemene strekking (en 
suggesties) om de deduplicator minder gemeen te maken. Dit is vast merge-baar, 
maar ik weet niet hoe.

Voor de tv data zal ik nu standaard de bestandsnaam waarin het is aangeleverd 
(in het url veld) in de headline te verwerken. 

Het zou fijn zijn als gededupliceerde artikelen nog wel ergens opgeslagen 
staan, want anders moeten we Erik weer aan het werk zetten om de getroffen 
programmas bij te werken. Dat is iig vandaag de dag, maar waarschijnlijk ook 
nos journaal.

Groet,
Kasper

Original comment by kasperwe...@gmail.com on 7 Sep 2013 at 2:56

GoogleCodeExporter commented 9 years ago
Bij 'Status' kan je 'Duplicate' selecteren.

Original comment by Toon.Alfrink@gmail.com on 7 Sep 2013 at 3:00