ndarville / newsdiffs

Automatic scraper that tracks changes in news articles over time.
Other
1 stars 0 forks source link

Parser for Information.dk #1

Open ndarville opened 10 years ago

ndarville commented 10 years ago

These don’t work:

feeder_pat = '^http://www.information.dk/\d+/'  # ?(\w+)
feeder_base = 'http://www.information.dk'

Example article: http://www.information.dk/500604.

ndarville commented 10 years ago
$ python parsers/test_parser.py inform.InformationParser http://www.information.dk/500604
12. juni 2014
Hackere lækker folketingspolitikeres CPR-numre som hævn
Ritzau
Navne, adresser, cpr-numre og mailadresser på 22 nuværende og tidligere SF'ere er torsdag blevet lækket på Twitter, skriver Politiken.
Det er angiveligt hackere, der lagt de fortrolige oplysninger ud på det sociale medie som en straffeaktion mod den omstridte lov om Center for Cybersikkerhed, som Folketinget vedtog i går.
- I dag, den 11. juni 2014 (i går, red.) afslørede i jeres sande ansigt efter at have vedtaget loven om det danske Center for Cybersikkerhed. I måneder har vi observeret jeres hykleriske tilgang til spørgsmål om privacy violations (overgreb på retten til privatliv, red.), skriver gruppen ifølge Politiken.
SF¹s forsvarsordfører Holger K. Nielsen bekræfter over for Politiken, at det er hans cpr-nummer og øvrige personfølsomme oplysninger, der er blevet offentliggjort.
- Det er da meget ubehageligt. Men så må vi forbedre it-sikkerheden i de systemer, vi har i SF. Jeg kan overhovedet ikke se nogen sammenhæng mellem det hackerangreb og loven om Center for Cybersikkerhed, som vi vedtog i går.
- Tværtom, så er Center for Cybersikkerhed jo netop oprettet for at dæmme op for cyberangreb, siger han til Politiken.
Hackerne siger i en følgebesked, at de har oplysninger på andre SF'ere. Men de har kun lækket oplysninger på medlemmer af SF's folketingsgruppe, som de klandrer for at have stemt for loven.
Det stemmer dog ikke helt, for gruppen har også offentliggjort personlige oplysninger på afhopperne Ida Auken, der nu er medlem af De Radikale, og Ole Sohn, der skiftede til Socialdemokraterne.
Med på listen er også SF's tidligere formand Villy Søvndal, der har trukket sig fra landspolitik.
ndarville commented 10 years ago

Tried making the regex for feeder_pat a raw string, but same empty list is returned.

ndarville commented 10 years ago
ndarville commented 10 years ago

Found it; the trailing slash was the problem. d50408d6278660ee4e43a5705dd6c35099eeb0b7

ndarville commented 10 years ago

Still no articles saved in articles/.

ndarville commented 10 years ago

The website won’t process the downloaded articles, even as I just use the built-in settings.

ndarville commented 10 years ago

Check log in /tmp.

ndarville commented 10 years ago

Doesn’t work even for the original repo.

The steps used were these:

$ git clone git@github.com:ecprice/newsdiffs.git
$ cd newsdiffs
$ virtualenv venv
$ source venv/bin/activate
$ export PYTHONPATH=~/Dropbox/projects/online/ny
$ export DJANGO_SETTINGS_MODULE=website.settings
$ pip install -r requirements.txt

$ python website/manage.py syncdb && python website/manage.py migrate
$ mkdir articles

$ python website/manage.py runserver
$ python website/manage.py scraper

The last line is done in a separate terminal tab like so:

$ source venv/bin/activate
$ export PYTHONPATH=~/Dropbox/projects/online/ny
$ export DJANGO_SETTINGS_MODULE=website.settings

$ python website/manage.py scraper

And this is what it looks like:

screen shot 2014-06-14 at 20 47 27

ndarville commented 10 years ago

This wasn’t a problem before, though. Weird.