Closed lyrixderaven closed 8 years ago
Ich habe eben von dem Projekt erfahren und daran interessiert mitzuarbeiten. Mir ist die Anforderung bzgl. der Infrastruktur jedoch nicht ganz klar. Nach dem Blick in die Doku dachte ich, dass diese Tasks von den einzelnen python scrapern übernommen werden? Mein Ansatz wäre wohl Richtung Apache UIMA und Solr gegangen, da ich dort Erfahrung habe.
Hi, sorry für die späte Antwort.
Aktuell füllen die Scraper die Datenbank mit Inhalten, die 1:1 von der Parlaments-Website übernommen werden.
Die Infrastruktur-Entscheidung, wie ein zweiter Schritt der Inhalte anreichert funktionieren kann, haben wir noch nicht getroffen.
Grundsätzlich verwenden wir als Datenbank PostgreSQL und als Suchserver ElasticSearch. Wenn es nicht sehr, sehr gute Gründe gibt, werden wir den Stack nicht auf Solr ändern - besonders, weil unsere Erfahrung zeigt, dass Facettierung etc in Solr viel mühsamer ist.
Wir würden uns allerdings über genauere Vorschläge von dir freuen, damit wir abschätzen können, was sinnvoll ist. Könntest du es vielleicht zu unserem nächsten Hackday am 12.12. schaffen? (Ankündigung folgt ASAP)
Folgendes kann ich vorschlagen:
Sorry, eine Java-Implementation kommt für uns IMHO nicht in Frage. Den aktuellen Tech-Stack zu erweitern und eine separate Java-Implementation dafür zu verwenden, postgres-DB-Inhalte im Nachhinein anzureichern ist weder eine gute Idee noch in Zukunft vernünftig wartbar.
Abgesehen davon sehe ich keine Chance, wie sich im aktuellen Zeitplan so eine Implementation bis in 2 Wochen (inklusive Abnahme, Dokumentation, etc.) ausgehen soll. Wie auf unseren Hackdays mehrfach erwähnt, läuft unser Projekt nur mehr bis Ende März; wir haben uns daher dafür entschieden, Code-Bounties nur mehr bis Mitte März abschliessen zu lassen (was danach kommt, könnten wir auch nicht mehr rechtzeitig prüfen und einfügen).
Dass das Projekt so homogen wie möglich sein sollte, ist mir auch soweit klar, aber was bedeutet das in diesem Fall, ausschließlich eine Implementierung in python?
Ja, zum derzeitigen Zeitpunkt (Fertigstellung aller Codebounties bis spaetestens in 10 Tagen, ist eine Implementation, die auf Technologien basiert, welche nicht bereits in unserem Tech-Stack enthalten sind, nicht mehr möglich, sorry.
On 01 Mar 2016, at 09:53, Daniel Aschauer notifications@github.com wrote:
Dass das Projekt so homogen wie möglich sein sollte, ist mir auch soweit klar, aber was bedeutet das in diesem Fall, ausschließlich eine Implementierung in python?
— Reply to this email directly or view it on GitHub https://github.com/Forum-Informationsfreiheit/OffenesParlament/issues/10#issuecomment-190618544.
Geschlossen weil Code Bounties leider nicht mehr aktuell sind. Wir freuen uns trotzdem über Hilfe!
Seitenweite Textfilter
Infrastruktur: € 500
Beim Parsen von Texten wollen wir automatisch gewisse Entitäten verlinken. Infrastruktur, die dies ermöglicht, ist Teil dieser Bounty
Verlinkung von Parlamentariern
Scraper: € 200
Wenn Parlamentarier namentlich erwähnt sind, aber nicht verlinkt sind, sollen sie verlinkt werden.
Verlinkung von Parlament-URLs
Scraper: € 200
Rewrite von Parlament-URLs auf OffenesParlament.at URLs
Verlinkung von Gesetz (ris.bka.gv.at Integration)
Scraper: 500 € Frontend: 200 €
Wenn ein Gesetz erwähnt wird, soll es als solches erkannt werden.