Da der Sachsen Scraper zu viel Last auf dem Parlamentsdokumentationssystem erzeugt, sollten wir:
OverviewScraper nicht mehr immer über alle Anfragen grasen lassen
Möglichst nicht tagsüber scrapen
Da trotzdem der Scrapevorgang immer noch recht aufwändig ist (klickt sich durch relativ viele Formulare/Seiten, bis alle Metainformationen zusammengesammelt) macht es Sinn, zu prüfen, ob eine API im Sachsener Parlamentsdokumentationssystem bereitgestellt werden kann.
Benötigte Daten aus der API:
Erster Import
Vollständige Liste aller kleinen/großen Anfragen mit Antwort einer Wahlperiode
Kleinste benötigte Rückgabe: Liste mit Dokumentennummern (für weitere Einzelabfragen)
Besser: Liste mit Dokumentennummer, Titel, Veröffentlichungsdatum, ... (wie Einzelabfrage)
Folgende Importe
Im besten Fall: RSS/Atom-Feed mit Vorgängen, bei denen Änderungen passiert sind
sollte auch bei "nur Tippfehler" oder ähnlichen kleinen Änderungen funktionieren
sollte auch bei Änderungen an den PDFs funktionieren
Feed nicht abschneiden, da sonst wieder Komplettimport passieren muss
Falls nicht möglich: Abfragemöglichkeit für Anfragen mit Antwort, die sich seit (Datum) verändert haben. Rückgabe wie oben.
Einzelabfrage
Abfrage der Metadaten für eine Anfrage mit Antwort anhand der Dokumentennummer
benötigte Rückgabe:
Wahlperiode
Dokumentennummer
Dokumententyp (kleine/große Anfrage)
Veröffentlichungsdatum
Titel
Anfragesteller (Vollständiger Name, Fraktion)
Beantwortendes Ministerium
Stabile URL zur PDF
falls möglich: letztes Änderungsdatum
Zur PDF-URL: Aktuell erfolgt ein Rehosting der PDFs bei kleineanfragen.de, da die URL zum PDF im Parlamentsdokumentationssystem nur funktioniert, wenn vorher die Anfrage im Viewer auch angezeigt wurde.
Die API sollte bestmöglich stateless und ohne Authentifizierung sein und auf REST mit JSON-Dokumenten basieren.
Andere (whsl. sinnvollere) Möglichkeit: Implementation von OParl, ein Standard für offenen Zugriff auf parlamentarische Informationssysteme.
Da der Sachsen Scraper zu viel Last auf dem Parlamentsdokumentationssystem erzeugt, sollten wir:
Da trotzdem der Scrapevorgang immer noch recht aufwändig ist (klickt sich durch relativ viele Formulare/Seiten, bis alle Metainformationen zusammengesammelt) macht es Sinn, zu prüfen, ob eine API im Sachsener Parlamentsdokumentationssystem bereitgestellt werden kann.
Benötigte Daten aus der API:
Erster Import
Folgende Importe
Einzelabfrage
Zur PDF-URL: Aktuell erfolgt ein Rehosting der PDFs bei kleineanfragen.de, da die URL zum PDF im Parlamentsdokumentationssystem nur funktioniert, wenn vorher die Anfrage im Viewer auch angezeigt wurde.
Die API sollte bestmöglich stateless und ohne Authentifizierung sein und auf REST mit JSON-Dokumenten basieren.
Andere (whsl. sinnvollere) Möglichkeit: Implementation von OParl, ein Standard für offenen Zugriff auf parlamentarische Informationssysteme.