lyrixderaven commented 9 years ago

Seitenweite Textfilter

Infrastruktur: € 500

Beim Parsen von Texten wollen wir automatisch gewisse Entitäten verlinken. Infrastruktur, die dies ermöglicht, ist Teil dieser Bounty

Verlinkung von Parlamentariern

Scraper: € 200

Wenn Parlamentarier namentlich erwähnt sind, aber nicht verlinkt sind, sollen sie verlinkt werden.

Verlinkung von Parlament-URLs

Scraper: € 200

Rewrite von Parlament-URLs auf OffenesParlament.at URLs

Verlinkung von Gesetz (ris.bka.gv.at Integration)

Scraper: 500 € Frontend: 200 €

Wenn ein Gesetz erwähnt wird, soll es als solches erkannt werden.

aschix commented 8 years ago

Ich habe eben von dem Projekt erfahren und daran interessiert mitzuarbeiten. Mir ist die Anforderung bzgl. der Infrastruktur jedoch nicht ganz klar. Nach dem Blick in die Doku dachte ich, dass diese Tasks von den einzelnen python scrapern übernommen werden? Mein Ansatz wäre wohl Richtung Apache UIMA und Solr gegangen, da ich dort Erfahrung habe.

fin commented 8 years ago

Hi, sorry für die späte Antwort.

Aktuell füllen die Scraper die Datenbank mit Inhalten, die 1:1 von der Parlaments-Website übernommen werden.

Die Infrastruktur-Entscheidung, wie ein zweiter Schritt der Inhalte anreichert funktionieren kann, haben wir noch nicht getroffen.

Grundsätzlich verwenden wir als Datenbank PostgreSQL und als Suchserver ElasticSearch. Wenn es nicht sehr, sehr gute Gründe gibt, werden wir den Stack nicht auf Solr ändern - besonders, weil unsere Erfahrung zeigt, dass Facettierung etc in Solr viel mühsamer ist.

Wir würden uns allerdings über genauere Vorschläge von dir freuen, damit wir abschätzen können, was sinnvoll ist. Könntest du es vielleicht zu unserem nächsten Hackday am 12.12. schaffen? (Ankündigung folgt ASAP)

aschix commented 8 years ago

Folgendes kann ich vorschlagen:

Da ich Java-Programmierer bin würde ich wohl die Features wohl mit Java und opennlp einbauen.
Der Schritt der Analyse und Anreicherung sollte dann separat erfolgen nachdem die postgres gefüllt wurde, und die Texte in der Datenbank ändern. Ist das für euch vorstellbar, oder seit ihr eher auf eine Lösung in python/im scraping Schritt aus?

lyrixderaven commented 8 years ago

Sorry, eine Java-Implementation kommt für uns IMHO nicht in Frage. Den aktuellen Tech-Stack zu erweitern und eine separate Java-Implementation dafür zu verwenden, postgres-DB-Inhalte im Nachhinein anzureichern ist weder eine gute Idee noch in Zukunft vernünftig wartbar.

Abgesehen davon sehe ich keine Chance, wie sich im aktuellen Zeitplan so eine Implementation bis in 2 Wochen (inklusive Abnahme, Dokumentation, etc.) ausgehen soll. Wie auf unseren Hackdays mehrfach erwähnt, läuft unser Projekt nur mehr bis Ende März; wir haben uns daher dafür entschieden, Code-Bounties nur mehr bis Mitte März abschliessen zu lassen (was danach kommt, könnten wir auch nicht mehr rechtzeitig prüfen und einfügen).

aschix commented 8 years ago

Dass das Projekt so homogen wie möglich sein sollte, ist mir auch soweit klar, aber was bedeutet das in diesem Fall, ausschließlich eine Implementierung in python?

lyrixderaven commented 8 years ago

Ja, zum derzeitigen Zeitpunkt (Fertigstellung aller Codebounties bis spaetestens in 10 Tagen, ist eine Implementation, die auf Technologien basiert, welche nicht bereits in unserem Tech-Stack enthalten sind, nicht mehr möglich, sorry.

On 01 Mar 2016, at 09:53, Daniel Aschauer notifications@github.com wrote:

Dass das Projekt so homogen wie möglich sein sollte, ist mir auch soweit klar, aber was bedeutet das in diesem Fall, ausschließlich eine Implementierung in python?

— Reply to this email directly or view it on GitHub https://github.com/Forum-Informationsfreiheit/OffenesParlament/issues/10#issuecomment-190618544.

fin commented 8 years ago

Geschlossen weil Code Bounties leider nicht mehr aktuell sind. Wir freuen uns trotzdem über Hilfe!

Forum-Informationsfreiheit / OffenesParlament

[CodeBounty] Seitenweite Textfilter #10

Seitenweite Textfilter

Verlinkung von Parlamentariern

Verlinkung von Parlament-URLs

Verlinkung von Gesetz (ris.bka.gv.at Integration)