politik-bei-uns / politik-bei-uns-web-old

Offenes Ratsinformationssystem: Weboberfläche
BSD 3-Clause "New" or "Revised" License
12 stars 6 forks source link

OpenGovLD-konformer Import #13

Open akuckartz opened 9 years ago

akuckartz commented 9 years ago

Entsprechend #6 sollte auch ein OpenGovLD-konformer Import erfolgen können. Das übernehme ich. Zielzeitraum: grob Sommer 2015. Unterstützung ist dabei erwünscht!

Weiteres zu diesem Issue wird unter https://github.com/okfde/ris-web/wiki/OpenGovLD gesammelt.

the-infinity commented 9 years ago

Der Import wäre ein weiteres Importmodul für den Scraper, nicht so sehr für die ris-web, was am Ende alles ist, was nach außen angeboten wird, also API + Webinterface.

akuckartz commented 9 years ago

Mein Verständnis sieht bisher so aus:

ris-scraper: Besucht automatisch Webseiten und untersucht deren HTML-Code, um daraus für andere Anwendungen (bisher nur ris-web) enthaltene Daten in strukturierter maschinenlesbarer Form aufzubereiten und auszugeben. Dabei wird MongoDB sowohl als Cache verwendet als auch zur Ausgabe der Daten.

ris-web: bietet eine Web-Oberfläche für Menschen und APIs für Ausgabe von Daten in strukturierter Form (z.B. OParl oder OpenGovLD). Der Input der Daten wird in der verwendeten MongoDB in einem speziellen Format erwartet (welches bisher nur von ris-scraper produziert wird).

Demnach wird die MongoDB zur Übergabe der Daten verwendet. Ein Programm welches einen OpenGovLD Dump als Input nimmt und die Ausgabe in dem von ris-web erwarteten Format in eine MongoDB schreibt kann man als Erweiterung der Eingabe-Möglichkeiten von ris-web, Erweiterung der Ausgabemöglichkeiten von ris-scraper oder auch als eigenständiges Programm ansehen.

Die Gemeinsamkeit ist in jedem Fall eine enge Kopplung an das MongoDB-Format. Für den umgekehrten Weg (MongoDB -> OpenGovLD, #6) gilt dies auch.

Für die Behandlung von Dokumenten wird statt einer MongoDB eine Dateiablage verwendet. Das ist aber für OpenGovLD und OParl nicht weiter von Bedeutung, da dort schlicht geeignete URLs zur Identifikation der Dateien verwendet werden.

akuckartz commented 9 years ago

Kurzer Zwischenstand: OpenGovLD wird voraussichtlich auf der Linked Data Platform (LDP)-Spezifikation des W3C beruhen.

Entsprechend suche ich nach geeigneten LDP-Implementierungen die gut zu der bisherigen ris-scaper/ris-web Infrastruktur passen. Es gibt im W3C-Wiki eine Liste die jedoch nicht ganz aktuell ist. Insbesondere fehlen dort eine Implementierung in Go (gold) und eine Implementierung auf Grundlage von rdflib.js und node.js (ldnode). EDIT: Die Liste dort ist nun vervollständigt und insgesamt etwas aktualisiert.

akuckartz commented 9 years ago

Aktuell experimentiere ich u.a. mit Blazegraph als Triplestore. Das ist die Software, die im März 2015 von der Wikimedia Foundation für Wikidata ausgewählt wurde. Damit sollen bis zu etwa 50 Milliarden triple oder quads in einer Instanz verwaltet werden können. Damit stünde auch eine SPARQL 1.1 Abfrage-Schnittstelle zur Verfügung - die jedoch gegenwärtig nicht als Bestandteil von OpenGovLD vorgesehen ist.