edisona / amcat

Automatically exported from code.google.com/p/amcat
1 stars 0 forks source link

Scrapers regionale dagbladen #82

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Er zijn momenteel twee scrapers voor dagblad van het noorden en de limburger. 
We zouden hier graag een aantal dagbladen aan toe willen voegen, zoals (op 
volgorde van importantie):

brabants dagblad
dagblad limburger
pzc
gelderlander
bn/de stem
eindhovens dagblad
leeuwarder courant
limburgs dagblad
parool
stentor
tubantia

Je hebt een mail gekregen met een inlog/wachtwoord, waarvan wij 'hopen' dat die 
het bij (een deel van) de dagbladen doet. Het stappenplan is dus

1) kijken bij welke kranten de inlog werkt
2) scrapers daarvoor schrijven :-)

Je kan naar de bestaande code kijken (van de regionale en/of landelijke) 
dagbladen voor het inlog gebeuren, meestal moet je een request doen met naam+ww 
en krijg je dan een cookie terug. De bestaande scrapers zijn nog 'oud', dus je 
kan de code niet 1-op-1 overnemen.

Eventueel kan je ook eerst een of meerdere van de oude scrapers omzetten naar 
nieuw om er goed in te komen (zie 
http://code.google.com/p/amcat/issues/detail?id=81), maar op zich heeft dit 
iets meer haast.

Original issue reported on code.google.com by vanatteveldt@gmail.com on 30 Dec 2011 at 11:39

GoogleCodeExporter commented 9 years ago
bij geen enkele krant heeft de inlog gewerkt, overigens was er niet altijd 
eentje nodig: voor het parool en de leeuwarder courant heb ik scrapers 
geschreven.

de overige kranten lijken een gezamelijke aanbieder te hebben, de opmaak van de 
sites zijn ook exact gelijk dus als we daar abbonementen op nemen kan ik in een 
klap een handjevol scrapers schrijven

een uitzondering is overigens het limburgs dagblad, daar zal ik me nog eens 
over buigen

Original comment by Toon.Alfrink@gmail.com on 7 Jan 2012 at 5:27

GoogleCodeExporter commented 9 years ago
Ha Toon, 

Mooi!

Ik hoop wel dat duidelijk was dat het in principe om de "opgemaakte versies" 
van de kranten gaat, dwz de e-krant of hoe ze het ook noemen die gelijk is aan 
de papieren krant, voor zover er zo'n versie is, natuurlijk.

Zo te zien is die er bij het parool niet, bij de PZC bijvoorbeeld wel: 
https://forms.wegener.nl/?pag=1506. Waarschijnlijk hebben alle Wegener kranten 
(uitgever van regionale kranten) idd dezelfde opmaak, dus misschien wil je daar 
zelfs een subclass van maken. Eventueel kunnen we daar ook samen naar kijken 
als je er twee gemaakt hebt?

Original comment by vanatteveldt@gmail.com on 7 Jan 2012 at 6:15

GoogleCodeExporter commented 9 years ago
http://www.tctubantia.nl/

met inlog nelruigrok@nieuwsmonitor.net en wachtwoord als in de mail werkt in 
ieder geval, je komt dan op http://tubantia.ned.newsmemory.com/ terecht.

Original comment by vanatteveldt@gmail.com on 7 Jan 2012 at 6:45

GoogleCodeExporter commented 9 years ago
Kors, ik maak jou 'owner' van dit issue. De Tubantia scraper zou een behoorlijk 
eind moeten zijn intussen, maar hij staat in ieder geval nog niet in de daily.

Martijn, jij zei dat jij naar Tubantia wilde kijken, was jij daar nog aan 
toegekomen?

Original comment by vanatteveldt@gmail.com on 17 Apr 2012 at 7:53

GoogleCodeExporter commented 9 years ago
Toon mailde mij dat alles in orde was met de Tubantia scraper, dus ik neem aan 
dat de scraper het doet!

Original comment by Martijn....@gmail.com on 17 Apr 2012 at 7:56

GoogleCodeExporter commented 9 years ago
Hoe zit het nu met deze scrapers?
Ik vind een half affe tubantia.py in scraping/news, en voor de rest niets.

Nou ja, aangezien ik nu owner ben, ga ik er voorlopig vanuit dat ik de 
tubantia.py af kan maken.

Original comment by korsvanl...@gmail.com on 11 May 2012 at 9:44

GoogleCodeExporter commented 9 years ago
Het lijkt erop dat Parool niet gebaseerd is op newsmemory. Ik kan voor de rest 
ook niet een niet-pdf digitale versie vinden. De site kan wel gescraped worden.

Original comment by korsvanl...@gmail.com on 16 May 2012 at 11:50

GoogleCodeExporter commented 9 years ago
Toon, is dit intussen gedaan?

Original comment by vanatteveldt@gmail.com on 3 Sep 2012 at 2:00

GoogleCodeExporter commented 9 years ago

Original comment by vanatteveldt@gmail.com on 3 Sep 2012 at 2:04

GoogleCodeExporter commented 9 years ago
lang niet allemaal, dus ik laat deze staan 

Original comment by Toon.Alfrink@gmail.com on 3 Sep 2012 at 2:41

GoogleCodeExporter commented 9 years ago
I want to do this before 2013, so next year's data will be complete.

x brabants dagblad
✔ dagblad limburger
x pzc
✔ gelderlander
x bn/de stem
x eindhovens dagblad
x leeuwarder courant
✔ limburgs dagblad
✔ parool
x stentor
✔ tubantia

Original comment by Toon.Alfrink@gmail.com on 20 Dec 2012 at 3:54

GoogleCodeExporter commented 9 years ago
Kan dit issue gesloten worden?

Original comment by vanatteveldt@gmail.com on 12 Jun 2013 at 6:54

GoogleCodeExporter commented 9 years ago
De vraag is nog of men door wil gaan met het scrapen van al die regionale 
dagbladen

Original comment by Toon.Alfrink@gmail.com on 13 Jun 2013 at 4:52

GoogleCodeExporter commented 9 years ago
Laat ze voorlopig maar even zitten, ik sluit het issue ook wel even.

Original comment by vanatteveldt@gmail.com on 13 Jun 2013 at 6:52