edisona / amcat

Automatically exported from code.google.com/p/amcat
1 stars 0 forks source link

Scraping problems #659

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Ha Toon,

Er zijn weer kranten in amcat die ontbreken en een paar andere opvallende 
dingen aan de scraping:

- De Volkskrant vanaf 20 januari
- De Telegraaf van 20 januari en vanaf 22 januari
- Trouw van 20 januari en vanaf 22 januari
- NRC Next van 22 januari
- Spits van 22 januari
- Het Financieele Dagblad van 22 januari
- Vanaf 16 januari is de artikelenfilter van het Algemeen Dagblad te coulant, 
het aantal artikelen per dag is te groot.

!!LET OP!! Vooral De Telegraaf scraping is urgent, aangezien je in een eerder 
issue zei dat je die niet verder dan een week kan terugscrapen. Het bijsampelen 
via lexisnexis is bij De Telegraaf echt rotwerk.

Alvast bedankt!

Joep

Original issue reported on code.google.com by joepscha...@nieuwsmonitor.net on 23 Jan 2014 at 11:31

GoogleCodeExporter commented 9 years ago
Vreemd dat dit blijft gebeuren, maar goed, ik zal het allemaal even aanvullen.
We zijn bezig met een compleet nieuwe scraping opzet en ik ben er zeker van dat 
dit soort rariteiten straks voorbij zijn :)

Hoe dan ook, het is allemaal weer netjes. De index wordt momenteel geupdate.

Original comment by Toon.Alfrink@gmail.com on 23 Jan 2014 at 12:26