google-code-export / amcat

Automatically exported from code.google.com/p/amcat
0 stars 0 forks source link

NRC Next scraper slaat pagina's over #632

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
Ha Toon,

De scraper van NRC Next slaat pagina's over. Dit lijkt voor te komen vanaf 28 
augustus tot en met nu. Een voorbeeld is 29 augustus. Op deze dag zijn er 34 
artikelen voor NRC Next gescraped. 1 op de voorpagina, 1 op pagina 4 en de 
volgende artikelen komen pas vanaf pagina 12.

Kan je dit oplossen en met terugwerkende kracht herstellen. Het heeft spoed.

Groeten,

Joep

Original issue reported on code.google.com by joepscha...@nieuwsmonitor.net on 19 Nov 2013 at 1:05

GoogleCodeExporter commented 9 years ago
Ha Toon,

Kan je hiernaar kijken, deze heeft spoed.

Groet,

Joep

Original comment by joepscha...@nieuwsmonitor.net on 27 Nov 2013 at 2:16

GoogleCodeExporter commented 9 years ago
Hoi Joep,

Deze doe ik vandaag.

Groet,
Toon

Original comment by Toon.Alfrink@gmail.com on 28 Nov 2013 at 2:31

GoogleCodeExporter commented 9 years ago
Is gefixed, articleset 744 loopt nu vol met de artikelen sinds eind Augustus. 
Morgen voeg ik ze aan de set van next toe.

Original comment by Toon.Alfrink@gmail.com on 28 Nov 2013 at 6:06

GoogleCodeExporter commented 9 years ago
Hee Toon,

Ik zie niets veranderd. Ook zit de fout nog steeds in de scraper, want 
afgelopen vrijdag zijn er weer maar 34 artikelen van NRC Next gescraped.

Ik zei op 19 november al dat het spoed heeft, maar als het nu niet snel 
opgelost wordt kom ik echt met mijn deadline in de knel.

Groeten,

Joep

Original comment by joepscha...@nieuwsmonitor.net on 2 Dec 2013 at 8:33

GoogleCodeExporter commented 9 years ago
Het blijkt dat er 2 problemen met de scraper waren, ik heb het hele ding nu 
omgebouwd. Setje 744 wordt nu aangevuld. Sorry voor de vertraging.

Ik denk dat het over 2 uur wel klaar is.

Original comment by Toon.Alfrink@gmail.com on 2 Dec 2013 at 12:26

GoogleCodeExporter commented 9 years ago
Ik zie nog geen verbetering, alles van next is nog hetzelfde.

Joep

-- 
Researcher | De Nederlandse Nieuwsmonitor

E:  joepschaper@nieuwsmonitor.net
T:  +31 20 598 31 91
M: +31 6 533 55 865

W: www.nieuwsmonitor.net
F:  www.facebook.com/NederlandseNieuwsmonitor
T:  @nieuwsmonitor

Original comment by joepscha...@nieuwsmonitor.net on 3 Dec 2013 at 3:08

GoogleCodeExporter commented 9 years ago
Na overleg met Joep en verder blijk dat er veel fouten in de dataset & scraper 
zitten halen we het hele archief opnieuw binnen vanaf ~2011, in een nieuw setje 
(745)

op dit tempo is dat over een halfuurtje klaar, de nieuwe data in de oude set 
zetten doe ik later.

Original comment by Toon.Alfrink@gmail.com on 3 Dec 2013 at 5:06

GoogleCodeExporter commented 9 years ago
Ha Toon,

Het ziet er beter uit, maar er zijn nog een paar dingen. In januari en
februari zijn de aantallen nog steeds redelijk laag, en met een kleine
lexisnexis check lijkt het erop dat er nog steeds artikelen missen:

29 januari amcat:41
29 januari amcat: 31
12 februari amcat: 58
12 februari LN: 71

Vanaf 11 september t/m 27 september lijken er weer teveel artikelen in
amcat te zitten. De aantallen komen boven de 100 uit:

16 september amcat: 100
16 september LN: 68
25 september amcat: 107
25 september LN: 75

Tot slot lijkt 2 december in amcat nog niet ontdubbeld.

Kan je hier vandaag nog naar kijken?

Joep

-- 
Researcher | De Nederlandse Nieuwsmonitor

E:  joepschaper@nieuwsmonitor.net
T:  +31 20 598 31 91
M: +31 6 533 55 865

W: www.nieuwsmonitor.net
F:  www.facebook.com/NederlandseNieuwsmonitor
T:  @nieuwsmonitor

Original comment by joepscha...@nieuwsmonitor.net on 4 Dec 2013 at 9:37