MyCoRe-Org / pica2mods

GNU General Public License v3.0
0 stars 0 forks source link

Keywords/topics from 045R, 044K and 044N #67

Closed Possommi closed 12 months ago

Possommi commented 1 year ago

Der Import von Schlagwörtern erfolgt nur eingeschränkt.

Das PICA+ Feld 045R für die RVK Notationen wird nicht importiert; ebenso wie das PICA+ Feld 044N $Ss für freie Schlagwörter.

Aus den PICA+ Feldern 044K/01 und 004K/02 wurden nicht alle im CBS enthaltenen Schlagwörter importiert.

Außerdem wurde ein als Schlagwort verwendeter Personenname unvollständig (nur der Nachname) importiert, siehe Screenshot.

Beispiele PPN:1602014973 https://thunibib-erfurt.gbv.de/servlets/DozBibEntryServlet?mode=show&id=ube_mods_00001138 (045R)

PPN:178696886X https://thunibib-erfurt.gbv.de/servlets/DozBibEntryServlet?mode=show&id=ube_mods_00001160 (044K)

PPN:1844966062 https://thunibib-erfurt.gbv.de/servlets/DozBibEntryServlet?mode=show&id=ube_mods_00001176 (044N)

rsteph-de commented 1 year ago

Kannst Du bitte die Pica-PPNs der MyCoRe-MODS-Dokumente ergänzen. Ich habe auf die thunibib keinen Zugriff.

rsteph-de commented 1 year ago

Können wir die Quelle des Schlagwortes (PicaFeld) für uns irgendwie im MODS kenntlich machen? Damit bleibt das Mapping nachvollziehbar und man kann ggf. nach der XSLT-Transformation nochmal im Postprocessing aufräumen. An irgendeiner Steller machen wir das auch schon, glaube ich.

Possommi commented 1 year ago

Können wir die Quelle des Schlagwortes (PicaFeld) für uns irgendwie im MODS kenntlich machen? Damit bleibt das Mapping nachvollziehbar und man kann ggf. nach der XSLT-Transformation nochmal im Postprocessing aufräumen. An irgendeiner Steller machen wir das auch schon, glaube ich.

<mods:subject authority="k10plus_field_555X"> wird an anderer Stelle gesetzt, ich würde das analog machen.

rsteph-de commented 1 year ago

Wollen wir bei der RVK gleich "All-In" gehen:

<!--RVK (neu, Idee) -->
<mods:subject authority="k10plus_field_5090">
  <mods:topic authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/ST%20300%20-%20ST%20308"
              authority="rvk" value="ST 300 - ST 308">Künstliche Intelligenz</mods:topic>
</mods:subject>
<!--GND (IST-Stand)-->
<mods:subject authority="k10plus_field_555X">
  <mods:topic authorityURI="http://d-nb.info/gnd/"
              valueURI="http://d-nb.info/gnd/4129772-6"
              authority="gnd">Biowissenschaften</mods:topic>
</mods:subject>

Das erfordert dann vermutlich einen zusätzlichen Abruf mit der PPN des Normdatensatzes

rsteph-de commented 1 year ago

Theoretisch müssen wir auch den Baum aufsammeln, weil die Notation ohne Kontext wenig aussagt. Beispiel : https://unapi.k10plus.de/?&format=picaxml&id=k10plus:ppn:1270781723 in MODS:

<!--RVK (neu, Idee) -->
<mods:subject authority="k10plus_field_5090">
  <!-- "echtes" Topic mit usage-->
  <mods:topic usage="primary" authority="rvk"
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI%203000">
              Allgemeines Deutschland</mods:topic>
  <mods:topic authority="rvk" 
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/D">
              Pädagogik</mods:topic>
  <mods:topic authority="rvk" 
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI">
              Bildungspolitik, Kulturpolitik</mods:topic>
              <!--Achtung: Leerzeichen vor und nach Bindestrich in RVK ja, im GBV Normdatensatz nicht? -->
  <mods:topic authority="rvk" 
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI 3000%20-%20DI3009">
              Bildungsplanung</mods:topic>
</mods:subject>
rsteph-de commented 1 year ago

Sebastian schlägt im Kontext von mods:geographic vor, nur die Attribute authority und valueURI zu verwenden und auf die authorityURI zu verzichten.

kkrebs commented 1 year ago

Ich würde an dieser Stelle erstmal dabei bleiben authorityURI und valueURI aufzuschreiben. Das sollten wir separat angehen.

kkrebs commented 1 year ago

Wir haben uns darauf geeinigt nur den eigentlichen Eintrag ohne den kompletten Baum zu übernehmen. Dieser kann dann anhand der PPN über die unapi nachgeholt werden. Dazu muss aber noch die PPN gespeichert werden. Da bei der RVK keine Schlagwortketten abgelegt werden, können wir die PPN gefahrlos als valueURI im mods:subject abspeichern. So dass der Eintrag dann wie folgt aussieht:

<mods:subject authority="k10plus_field_5090" valueURI="https://uri.gbv.de/document/gvk:ppn:1270781723">
  <mods:topic usage="primary" authority="rvk"
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI%203000">
              Allgemeines Deutschland</mods:topic>
</mods:subject>
Possommi commented 1 year ago

Wir haben uns darauf geeinigt nur den eigentlichen Eintrag ohne den kompletten Baum zu übernehmen. Dieser kann dann anhand der PPN über die unapi nachgeholt werden. Dazu muss aber noch die PPN gespeichert werden. Da bei der RVK keine Schlagwortketten abgelegt werden, können wir die PPN gefahrlos als valueURI im mods:subject abspeichern. So dass der Eintrag dann wie folgt aussieht:

<mods:subject authority="k10plus_field_5090" valueURI="https://uri.gbv.de/document/gvk:ppn:1270781723">
  <mods:topic usage="primary" authority="rvk"
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI%203000">
              Allgemeines Deutschland</mods:topic>
</mods:subject>

@kkrebs @rsteph-de

'@usage' is kein erlaubtes Attribut an mods:topic

kkrebs commented 1 year ago

ah, @usage kann dann da auch und sowieso raus. Das wäre eh nur relevant gewesen um das eigentliche Schlagwort zu markieren. Ist ja aber mit der jetztigen Lösung nicht mehr nötig.

Possommi commented 1 year ago

ah, @Usage kann dann da auch und sowieso raus. Das wäre eh nur relevant gewesen um das eigentliche Schlagwort zu markieren. Ist ja aber mit der jetztigen Lösung nicht mehr nötig.

wenn wir jetzt den Import machen würden (ohne Hierarchie) dann hätten wir in der thunibin dreimal das Schlagwort: "Allgemeines und Deutschland" im Ergebnis :(

rsteph-de commented 1 year ago

Das spräche dann doch wieder dafür, die Hierarchie direkt ins MODS zu übernehmen. Die Wiederholung von mods:topic ist allerdings ungünstig, weil das eher für Schlagwortketten (mehre Schlagwörter in Kombination) als für hierarchische Gliederungen verwendet wird. Alle begriffe verkettet als Text in mods:topic zu tun, ist mir aber auch zu "platt":

<mods:topic>
Pädagogik / Spezialfragen des gesamten Schulsystems / Schulleistung und Leistungsschule; Leistungstest / Allgemeines und Deutschland
</mods:topic>

Es wäre schön "für später" auch die IDs der oberen Kategorien zu haben und den tatsächlichen Begriff "Allgemeines und Deutschland" hervorzuheben.

Deshalb doch wieder "Alles auf Anfang"?

Possommi commented 1 year ago

Das spräche dann doch wieder dafür, die Hierarchie direkt ins MODS zu übernehmen. Die Wiederholung von mods:topic ist aber ungünstig, weil das eher für Schlagwortketten (mehre Schlagwörter in Kombination) als für hierarchische Gliederungen verwendet wird. Das alles verkettet als Text in mods:topic zu tun ist mir aber auch zu "platt":

<mods:topic>
Pädagogik / Spezialfragen des gesamten Schulsystems / Schulleistung und Leistungsschule; Leistungstest / Allgemeines und Deutschland
</mods:topic>

Es wäre schön "für später" auch die IDs der oberen Kategorien zu haben und den tatsächlichen Begriff "Allgemeines und Deutschland" hervorzuheben.

Ich kann gut leben mit einzelnen mods:topic innerhalb eines mods:subject. Können in 045R Schlagwortketten vorkommen? Wenn nicht kann man ja über die authoritiy Fallunterscheidungen machen.

rsteph-de commented 1 year ago

Schlagwortketten sollte es in der RVK-Notation nicht geben.

Die Idee, das eigentliche Schlagwort über die authority zu kennzeichnen, finde ich gut. Nur das "echte" Topic bekommt das authority Attribut (und ist implizit auch immer das 1. mods:topic). Zusätzlich würde ich noch die Hiearchie-Reihenfolge der weiteren Topics umdrehen. Dann geht es konsequent vom Speziellen zum Allgemeinen.

<!--RVK (überarbeitet) -->
<mods:subject authority="k10plus_field_5090">
  <!-- "echtes" Topic mit authority-->
  <mods:topic authority="rvk"
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI%203000">
              Allgemeines Deutschland</mods:genre>
  <mods:topic
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI 3000%20-%20DI3009">
              Bildungsplanung</mods:topic>
  <mods:topic
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI">
              Bildungspolitik, Kulturpolitik</mods:topic>
              <!--Achtung: Leerzeichen vor und nach Bindestrich in RVK ja, im GBV Normdatensatz nicht? -->
  <mods:topic
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/D">
              Pädagogik</mods:topic>
</mods:subject>
kkrebs commented 1 year ago

Wenn man das "echte" Topic herausfinden und kennzeichnen kann, kann man auch unserem ursprünglichen Plan folgen und nur dieses übernehmen. Ich bin nach wie vor dafür nicht alle topics zu übernehmen, weil wir so Schlagwortketten abbilden! Ich hätte das mods gern an dieser Stelle klar und einheitlich!

rsteph-de commented 1 year ago

Das bedeutet dann, dass wir (so wie der Katalog) auch nur die Notation im MODS speichern und anzeigen: (DI 3000 statt "Allgemeines und Deutschland") Alle weiteren Infos, Hierarchie + Bezeichner ggf. per Javascript + UnAPI-Abfrage generierter Infobox: grafik

rsteph-de commented 1 year ago

Ergebnis:

<mods:subject authority="k10plus_field_5090" valueURI="https://uri.gbv.de/document/gvk:ppn:1270781723">
  <mods:topic authority="rvk"
              authorityURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online"
              valueURI="https://rvk.uni-regensburg.de/regensburger-verbundklassifikation-online#notation/DI%203000">
              DI 3000</mods:topic>
</mods:subject>
kkrebs commented 1 year ago

Genau!