pombreda / amcat

Automatically exported from code.google.com/p/amcat
0 stars 0 forks source link

duplicate articles in db #143

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Some scrapers, especially teletext, will inevitably save the same article in 
the database multiple times.

i'm working on a maintenance function which will delete duplicate articles 
(same text, same headline, different date) in a given articleset.

Original issue reported on code.google.com by Toon.Alfrink@gmail.com on 9 Jul 2012 at 4:48

GoogleCodeExporter commented 9 years ago
Er is nu een deduplicate in amcat/scripts/maintanence, maar die kijkt nog 
slechts op url's, dus die moet uitgebreid worden met een optie om ook naar 
text/headline/medium te kunnen kijken.

Original comment by korsvanl...@gmail.com on 10 Jul 2012 at 10:11

GoogleCodeExporter commented 9 years ago
deduplicate kijkt nu naar text en articleset. zijn die precies gelijk, dan 
wordt er een artikel verwijderd. 

bij teletekst gebeurt dit automatisch

Original comment by Toon.Alfrink@gmail.com on 30 Jul 2012 at 9:33