marians / offeneskoeln

Software backend of offeneskoeln.de
16 stars 9 forks source link

Dokumenteneigenschaft type in Suche und Datenbank uneinheitlich #44

Open marians opened 12 years ago

marians commented 12 years ago

Die Art des Dokuments kann in der Original-Quelle, im Ratsinformationssystem der Stadt Köln, nahezu beliebige Werte annehmen. Hier sind die aktuell vorkommenden Typen:

    Anfrage nach § 4 der GeschO des Rates
    Anfrage nach § 4
    Antrag auf eine Aktuelle Stunde nach § 5
    Antrag nach § 3 der GeschO des Rates
    Antrag nach § 3 der GeschO des Rates
    Antrag nach § 3
    Antrag nach § 12 (Dringlichkeitsantrag)
    Beantwortung e. mündl. Anfrage (Auss.)
    Beantwortung einer Anfrage (Ausschuss)
    Beantwortung einer Anfrage (BV)
    Beantwortung einer Anfrage (Rat)
    Beantwortung einer mündl. Anfrage (BV)
    Beschlussvorlage Ausschuss
    Beschlussvorlage Bezirksvertretung
    Beschlussvorlage Rat / Hauptausschuss
    Beschlussvorlage Rat bzw. Hauptausschuss
    Beschlussvorlage
    Dringlichkeitsvorlage Ausschuss
    Dringlichkeitsvorlage BV
    Dringlichkeitsvorlage Bezirksvertretung
    Dringlichkeitsvorlage Hauptauss. /Rat A
    Dringlichkeitsvorlage Hauptausschuss
    Dringlichkeitsvorlage Rat
    Dringlichkeitsvorlage
    Gem. Anfrage nach § 4 (SPD)
    Gem. Änderungsantrag (SPD)
    Mitteilung Ausschuss
    Mitteilung BV
    Mitteilung/Beantwortung - Ausschuss
    Mitteilung/Beantwortung - BV
    Mitteilungsvorlage
    SPD Anfrage nach § 4
    Stellungnahme zu e. Antrag (Ausschuss)
    Stellungnahme zu einem Antrag (BV)
    Stellungnahme zu einem Antrag (Rat)
    Stellungnahme/Beantwortung - Rat

Da hier viele verschiedene Formulierungen für ein und denselben Typen verwendet werden, werden diese Formulierungen für die Suche durch solr_import.py normalisiert, so dass die folgenden Typen übrig bleiben:

    Anfrage
    Antrag
    Beschlussvorlage
    Dringlichkeitsantrag
    Dringlichkeitsvorlage
    Mitteilung

Das führt aktuell dazu, dass bei der Suche Anhand des Felds type die normalisierten Werte benutzt werden können/müssen.

Die ausgegebenen Dokumenteneigenschaften, die über die API-Funktion /api/documents für die Dokumenteneigenschaft type zurück gegeben werden, sind jedoch nicht normalisiert und entsprechen einem der Werte in der oberen Liste.

Eine Lösung wäre, die Dokumenteneigenschaft type grundsätzlich zu normalisieren. Damit geht jedoch Information verloren.

Die andere Möglichkeit wäre, sowohl die Original-Typbeschreibung als auch die normalisierte Beschreibung als jeweils eigene Dokumenteneigenschaft abzulegen. Damit ginge kein Detail verloren.

Meinungen hierzu bitte gerne in den Kommentaren!

akuckartz commented 9 years ago

Hier sind die Gründe der Entstehung der langen Liste der Stadt Köln wichtig. Offenbar hat eine intern verwendete Oberfläche dazu ermutigt mehrere Daten zusammen zu packen, die besser separat sein sollten. Und teilweise sind die Elemente der Liste sogar redundant (BV=Bezirksvertretung). Eine Normalisierung halte ich deshalb für angebracht. Die Rohdaten können allerdings eventuell bei einer Plausibilitätsprüfung helfen (Dringlichkeitsvorlage BV in Ausschuss statt in BV).

akuckartz commented 9 years ago

Für eine solche "normalisierte" Eigenschaft kann demnächst https://github.com/opengovld/skos verwendet werden.