marians / scrape-a-ris

Scrape-A-RIS is a scraper for assembly information systems (Ratsinformationssysteme) using Somacos SessionNet, written in Python.
9 stars 8 forks source link

Grundlegene Änderung des Scrapens von Zeiträumen #24

Closed marians closed 10 years ago

marians commented 10 years ago

Bisher werden, um alle Vorlagen eines bestimmten Zeitraums zu finden, die Sitzungen dieses Zeitraums abgerufen. Dann werden über die Tagesordnungspunkte der Sitzungen die Vorlagen abgerufen.

Neben den vielen Seitenaufrufen, die hierfür notwendig sind, gibt es dabei auch das Problem, dass Vorlagen im Normalfall zu mehreren Sitzungen gehören und deshalb mehrfach ausgelesen werden. Entsprechend werden alle Anhänge der Vorlage ebenfalls mehrfach ausgelesen.

Es scheint einen einfacheren Weg zu geben, der das mehrfache Auslesen der selben Vorlage und der Anhänge überflüssig macht. Die Seite

http://ratsinformation.stadt-koeln.de/vo0040.asp

bietet eine Möglichkeit zum gezielten Abruf von Vorlagen nach beliebigen Datumsbereichen.

Es ist zu überlegen, ob damit andere Nebenwirkungen erzeugt würden, wie z.B. das mehrfache Scrapen derselben Sitzungen.

marians commented 10 years ago

Aktuell würde das Auslassen der Sitzungen und das direkte Scrapen von Vorlagen bedeuteten, dass die Beratungsfolge (also die Beziehungen von Vorlagen zu Tagesordnungspunkten zu Sitzungen) nicht erfasst würden.

Das lässt sich nachvollziehen, indem man einfach eine beliebige Vorlage anhand ihrer URL oder ID scrapet.

Will man erreichen, dass die Beratungsfolge ausgehend von Vorlagen erfasst wird, ist das eine umfassende Änderung und man hat am Ende wieder die selben Probleme wir aktuell, nur an anderer Stelle.

Daher erst mal geschlossen.