Middle-High-German-Conceptual-Database / MHDBDB

1 stars 0 forks source link

Ingest neuer Texte (TEI) in funktionablem Backend #88

Open wachauer opened 1 year ago

wachauer commented 1 year ago

Teil des neuen Backends von 2024 soll der Ingest neuer Texte sein.

Was tun, wenn (wie es fast immer sein wird) TEI-Texte anders ausgezeichnet sind als bei uns? Ich seh es so:

Workflow:

  1. @thilielx nach dem Relaunch: In \MHDBDB\Relaunch\Daten\MHDBDB-Daten\tei schauen, welche TEI-Befehle die MHDBDB-Texte verwenden, Liste an Daniel. Ich erinnere mich an lb, seg, hi, l, p. Wichtig: Unterschiedliche Gattungen durchschauen, Verse (Lyrik) sind anders als Zeilen (Prosa) codiert usw.!
  2. Nicht auf dieses issue vergessen: https://github.com/Middle-High-German-Conceptual-Database/MHDBDB/issues/51
  3. Ingest-Funktion für fremdes TEI mit "Komplexitätskonverter" gem. Alans Liste bauen @KardungLa
  4. Tokenisierte Wörter weitestmöglich automatisch einpflegen in bereits bestehende Ressourcen (Belegsuche, Lemmata...). Lemmatisierung+Disambiguierung neuer Wörter sind Teil der Backend-Entwicklung.
  5. Beim Ingest auch Metadaten gem. allen anderen Texten berücksichtigen, also LOD, Autorendaten, Werkdaten, Zugehörigkeit zu Textreihen usw.
  6. Test mit Heidelberger Daten (Kontakt Alan: Victor Millet + Florian Nieser). Es folgen sukzessive alle TEIs aus dem Corema-Projekt (Kontakt Katharina: Helmut Klug Uni Graz). Weitere Korpuserweiterung siehe auch Planner-Bucket "Korpuserweiterung".
wachauer commented 1 year ago

Zusatzinfo @thilielx: Dieses Todo überschneidet sich auch mit der Heidelberger Kooperation. Wir müssen das Korpus, das wir von ihnen bekommen, ja auch irgendwie bei uns einpflegen können.

wachauer commented 1 year ago

@juliahin Zur Zeit gibt es diese beiden Arten von Auszeichnungen: image

Und dann noch mit einige Formatierungssachen. Die fuxen aber derzeit (@KardungLa prüft gerade, ob der TEI Renderer von Oleksii das Problem fixen kann). Siehe hier: https://plusacat-my.sharepoint.com/:x:/r/personal/katharina_wachauer_plus_ac_at/Documents/MHDBDB/Relaunch/TEI_Doku/Mhdbdb_to_TEI.xlsx?d=wdce0930f7b694a749f2fc2e5d4d54f1d&csf=1&web=1&e=5fDuP1