Hochfrequenz / ebdamame

Python library to scrape .docx files with "Entscheidungsbaumdiagramm" tables into a truely machine readable structure
GNU General Public License v3.0
0 stars 0 forks source link

💬 Add `ebd_name` metadata #246

Closed OLILHR closed 1 week ago

OLILHR commented 1 month ago

json meta data currently look like this:

"metadata": {
    "chapter": "MaBiS",
    "ebd_code": "E_0009",
    "role": "BIKO",
    "sub_chapter": "7.4.1: AD: Deaktivierung eines MaBiS-ZP für Netzzeitreihe an BIKO"
  },

but EBDs have names that are currently missing across all json files. For instance E_0009 = E_0009_MaBiS-ZP Deaktivierung prüfen.

hf-kklein commented 1 month ago

Ich glaube was falsch ist, ist das chapter. zumindest im docstring sieht es nach dem aus, was du suchst:

https://github.com/Hochfrequenz/rebdhuhn/blob/12df2a5bd75f66aa9721c202a9b3cafa19ac22d2/src/rebdhuhn/models/ebd_table.py#L23-L27

OLILHR commented 1 month ago

Ich glaube was falsch ist, ist das chapter. zumindest im docstring sieht es nach dem aus, was du suchst:

https://github.com/Hochfrequenz/rebdhuhn/blob/12df2a5bd75f66aa9721c202a9b3cafa19ac22d2/src/rebdhuhn/models/ebd_table.py#L23-L27

eher das sub-chapter, oder? das chapter scheint oben in den Metadaten zu fehlen; und was in meinem Beispiel oben das sub-chapter ist, ist eigentlich das chapter. In deinem Link siehts so aus, als ist sub-chaper = EBD name.

hf-kklein commented 1 month ago

Der Name klingt so als würden wir es aus irgendwelchen Headings Inder word ziehen. Vllt ist es nur Bold und kein heading?

DeltaDaniel commented 2 weeks ago

Es gibt noch einen subsection_title in dem entsprechenden Modell der EBD_amame

https://github.com/Hochfrequenz/ebdamame/blob/dbc210c25385f968b2ae53dcae0a4271c2d5c3d6/src/ebdamame/__init__.py#L174-L200

DeltaDaniel commented 2 weeks ago

Ist eher ein Thema für das R_EBD_Huhn.

"metadata": {
    "chapter": "MaBiS",
    "ebd_code": "E_0009",
    "role": "BIKO",
    "sub_chapter": "7.4.1: AD: Deaktivierung eines MaBiS-ZP für Netzzeitreihe an BIKO"
  },

Hier fehlt eine Ebene. Also irgendwas wie:

"metadata": {
    "chapter": "MaBiS",
    "ebd_code": "E_0009",
    "role": "BIKO",
    "sub_chapter": "7.4.: AD: Deaktivierung eines MaBiS-ZP für Netzzeitreihe an BIKO",
    "sub_sub_chapter": "7.4.1: E_0009_MaBiS-ZP Deaktivierung prüfen"
  },

Mein Vorschlag:

"metadata": {
    "chapter": "7.4.: AD: Deaktivierung eines MaBiS-ZP für Netzzeitreihe an BIKO",
    "ebd_code": "E_0009",
    "role": "BIKO",
    "sub_chapter":  "7.4.1: E_0009_MaBiS-ZP Deaktivierung prüfen"
  },

@hf-kklein, @OLILHR: Was meint ihr?

hf-kklein commented 2 weeks ago

das alte leidige thema :D

wo definieren wir unsere models?

klar, pass es gerne in r_ebd_huhn an, aber am besten optional und per default none, so dass bestehendes zeug nicht bricht.

OLILHR commented 1 week ago

Stand 04.11.24

{
    "metadata": {
        "chapter": "z.B. MaBiS",
        "ebd_code": "z.B. E_0001",
        "role": "z.B. LF",
        "section": "x.x.x: AD: Lieferbeginn", (war mal "sub_chapter")
        "ebd_name": "z.B. Prüfen, ob ..." (neu)
        "remark": "Derzeit ist für diese Entscheidung kein Entscheidungsbaum notwendig, da keine Antwort gegeben wird." (neu, betrifft nur EBDs ohne Tabellen)
    },
    ...
}

wenn sub_chapter -> section refactoring zu viele Probleme verursacht, bleibt sub_chapter

OLILHR commented 1 week ago

#286

OLILHR commented 1 week ago

similar to https://github.com/Hochfrequenz/rebdhuhn/pull/286