marians / cologne-ris-scraper

A python-based scraper for the Ratsinformationssystem (RIS) of Cologne, Germany
14 stars 4 forks source link

Attachments werden nur neu geladen, wenn sie noch nicht geladen wurden #3

Closed marians closed 11 years ago

marians commented 12 years ago

Die Funktion get_attachments() lädt nur diese Attachments, die noch nicht in der Datenbank eingetragen sind. Es wird nicht überprüft, ob die dazu gehörige Datei (noch) vorhanden ist oder ob sie vielleicht verändert wurde.

Prüfen, ob sich eine Datei verändert hat, kann man nur durch Abgleich von Dateigröße bzw. Prüfsumme. Das bedeutet, man müsste dafür den Anhang ein weiteres Mal herunter laden, um ihn abgleichen zu können. (Der Kölner RIS-Server sendet (IMHO) weder einen Content-Length Response Header, noch einen Last-Modified.

Damit empfiehlt sich dieser Modus nicht für die regelmäßigen Durchgänge, sondern nur für seltenere, gründlichere Scraper-Durchgänge.

marians commented 11 years ago

Problem ist seit einiger Zeit behoben. Attachments werden nun neu geladen und verglichen.