Closed GoogleCodeExporter closed 9 years ago
bij geen enkele krant heeft de inlog gewerkt, overigens was er niet altijd
eentje nodig: voor het parool en de leeuwarder courant heb ik scrapers
geschreven.
de overige kranten lijken een gezamelijke aanbieder te hebben, de opmaak van de
sites zijn ook exact gelijk dus als we daar abbonementen op nemen kan ik in een
klap een handjevol scrapers schrijven
een uitzondering is overigens het limburgs dagblad, daar zal ik me nog eens
over buigen
Original comment by Toon.Alfrink@gmail.com
on 7 Jan 2012 at 5:27
Ha Toon,
Mooi!
Ik hoop wel dat duidelijk was dat het in principe om de "opgemaakte versies"
van de kranten gaat, dwz de e-krant of hoe ze het ook noemen die gelijk is aan
de papieren krant, voor zover er zo'n versie is, natuurlijk.
Zo te zien is die er bij het parool niet, bij de PZC bijvoorbeeld wel:
https://forms.wegener.nl/?pag=1506. Waarschijnlijk hebben alle Wegener kranten
(uitgever van regionale kranten) idd dezelfde opmaak, dus misschien wil je daar
zelfs een subclass van maken. Eventueel kunnen we daar ook samen naar kijken
als je er twee gemaakt hebt?
Original comment by vanatteveldt@gmail.com
on 7 Jan 2012 at 6:15
http://www.tctubantia.nl/
met inlog nelruigrok@nieuwsmonitor.net en wachtwoord als in de mail werkt in
ieder geval, je komt dan op http://tubantia.ned.newsmemory.com/ terecht.
Original comment by vanatteveldt@gmail.com
on 7 Jan 2012 at 6:45
Kors, ik maak jou 'owner' van dit issue. De Tubantia scraper zou een behoorlijk
eind moeten zijn intussen, maar hij staat in ieder geval nog niet in de daily.
Martijn, jij zei dat jij naar Tubantia wilde kijken, was jij daar nog aan
toegekomen?
Original comment by vanatteveldt@gmail.com
on 17 Apr 2012 at 7:53
Toon mailde mij dat alles in orde was met de Tubantia scraper, dus ik neem aan
dat de scraper het doet!
Original comment by Martijn....@gmail.com
on 17 Apr 2012 at 7:56
Hoe zit het nu met deze scrapers?
Ik vind een half affe tubantia.py in scraping/news, en voor de rest niets.
Nou ja, aangezien ik nu owner ben, ga ik er voorlopig vanuit dat ik de
tubantia.py af kan maken.
Original comment by korsvanl...@gmail.com
on 11 May 2012 at 9:44
Het lijkt erop dat Parool niet gebaseerd is op newsmemory. Ik kan voor de rest
ook niet een niet-pdf digitale versie vinden. De site kan wel gescraped worden.
Original comment by korsvanl...@gmail.com
on 16 May 2012 at 11:50
Toon, is dit intussen gedaan?
Original comment by vanatteveldt@gmail.com
on 3 Sep 2012 at 2:00
Original comment by vanatteveldt@gmail.com
on 3 Sep 2012 at 2:04
lang niet allemaal, dus ik laat deze staan
Original comment by Toon.Alfrink@gmail.com
on 3 Sep 2012 at 2:41
I want to do this before 2013, so next year's data will be complete.
x brabants dagblad
✔ dagblad limburger
x pzc
✔ gelderlander
x bn/de stem
x eindhovens dagblad
x leeuwarder courant
✔ limburgs dagblad
✔ parool
x stentor
✔ tubantia
Original comment by Toon.Alfrink@gmail.com
on 20 Dec 2012 at 3:54
Kan dit issue gesloten worden?
Original comment by vanatteveldt@gmail.com
on 12 Jun 2013 at 6:54
De vraag is nog of men door wil gaan met het scrapen van al die regionale
dagbladen
Original comment by Toon.Alfrink@gmail.com
on 13 Jun 2013 at 4:52
Laat ze voorlopig maar even zitten, ik sluit het issue ook wel even.
Original comment by vanatteveldt@gmail.com
on 13 Jun 2013 at 6:52
Original issue reported on code.google.com by
vanatteveldt@gmail.com
on 30 Dec 2011 at 11:39