marians / scrape-a-ris

Scrape-A-RIS is a scraper for assembly information systems (Ratsinformationssysteme) using Somacos SessionNet, written in Python.
9 stars 8 forks source link

Download von Attachment schlägt reproduzierbar fehl (Köln Vorlage 32478) #27

Open marians opened 10 years ago

marians commented 10 years ago

Es handelt sich um die Vorlage http://ratsinformation.stadt-koeln.de/vo0050.asp?__kvonr=32478 .

python main.py -v --submissionurl "http://ratsinformation.stadt-koeln.de/vo0050.asp?__kvonr=32478"
Getting attachment '0450_2012_Beschlussvorlage_Ausschuss_'
Getting attachment '0450_2012_Anlage_0_Begruendung_der_Dringlichkeit_'
Getting attachment '0450_2012_Anlage_4'
Getting attachment '0450_2012_Anlage_5_Auszug_Rahmenplanungsbeirat_07_02_12'
Getting attachment '0450_2012_Anlage_6_Auszug_BV_4_26_03_2012'
Getting attachment '0450_2012_Anlage_1_Plan_'
Getting attachment '0450_2012_Anlage_2_Plan_'
Getting attachment '0450_2012_Anlage_2_Plan_'
Traceback (most recent call last):
  File "main.py", line 150, in <module>
    scraper.work_from_queue()
  File "/home/ok/offeneskoeln2/scrape-a-ris/risscraper/scraper.py", line 79, in work_from_queue
    self.get_submission(submission_id=job['key'])
  File "/home/ok/offeneskoeln2/scrape-a-ris/risscraper/scraper.py", line 552, in get_submission
    attachment = self.get_attachment_file(attachment, mform)
  File "/home/ok/offeneskoeln2/scrape-a-ris/risscraper/scraper.py", line 579, in get_attachment_file
    attachment.content = mform_response.read()
  File "/usr/lib/python2.6/socket.py", line 348, in read
    data = self._sock.recv(rbufsize)
  File "/usr/lib/python2.6/httplib.py", line 542, in read
    s = self.fp.read(amt)
  File "/usr/lib/python2.6/socket.py", line 377, in read
    data = self._sock.recv(left)
socket.error: [Errno 104] Connection reset by peer

Der Fehler lässt sich auch im Browser reproduzieren und liegt wahrscheinlich auf Serverseite. Trotzdem sollte das nicht zu einem Abbruch des Scrapers führen.

marians commented 10 years ago

Das gleiche Problem tritt bei der Anlage "Plan 3" in dieser Vorlage auf: http://ratsinformation.stadt-koeln.de/vo0050.asp?__kvonr=36464

akuckartz commented 10 years ago

Ich erhalte beim Zugriff auf die erste URL eine nicht fehlerhaft aussehende HTML-Seite mit der Überschrift "182. FNP; Widdersdorfer Straße in Köln-Ehrenfeld; Offenlagebeschluss" und diversen Links zu PDF-Dateien.

Beim Zugriff auf die zweite URL erhalte ich problemlos eine Seite mit der Überschrift "189. FNP-Änderung; Schanzenstraße-Nord in Köln-Mülheim; Feststellungsbeschluss"

Ich schlage deshalb vor, dieses Issue zu schliessen.