marians / cologne-ris-scraper

A python-based scraper for the Ratsinformationssystem (RIS) of Cologne, Germany
14 stars 4 forks source link

Beratungsfolge wird nicht erfasst, sollte über Vorlagen-Detailseite gescraped werden #8

Closed marians closed 11 years ago

marians commented 12 years ago

Bei manchen Dokumenten werden keine Tagesordnungspunkte (agendaitems) angelegt, obwohl die Dokumente in Sitzungen vorgelegt wurden.

Beispiel: http://offeneskoeln.de/dokumente/0413-2012/

Bei anderen Dokumenten wird zwar die Sitzung erfasst, aber Dokumente werden dem falschen Tagesordnungspunkt zugeordnet.

Die Beratungsfolge sollte über die Vorlagen-Detailseite erfasst werden. Beispiel:

http://ratsinformation.stadt-koeln.de/vo0050.asp?__kvonr=32312&voselect=9576

Dabei ist dafür zu sorgen, dass alle referenzierten Objekte (agendaitems, sessions) angelegt werden müssen. Dies erfordert ggf. das Scrapen der jeweiligen verlinkten Seiten.

Im Code findet sich ein Anfang zum Auslesen der Beratungsfolge, getrennt in zwei Teile: Zukünftig und vergangen. Siehe Debugging-Ausgaben "Beratungsfolge Zukunft" bzw. "Beratungsfolge Vergangenheit". Der Scraper arbeitet an der Stelle noch sehr unsauber.

Die benötigten Einträge in agendaitems2submissions und agendaitems2requests werden aktuell GAR NICHT erstellt.

marians commented 11 years ago

Die vergangene Beratungsfolge wird inzwischen erfasst. Ich schließe das Issue jetzt erst mal.