ubtue / DatenProbleme

0 stars 0 forks source link

Vorschlag für Zotero (halb- und vollautomatisch): kein Indikator für Feld 5520 #2091

Open IxKo opened 7 months ago

IxKo commented 7 months ago

Problembeschreibung

Bisher werden Keywords in das Feld 5520 mit Indikator |s| für Sach-Schlagwort importiert.

Der Indikator ist laut Dokumentationshilfe fakultativ.

Warum hat man sich bei den Zotero-Verfahren dazu entschieden, immer den Indikator |s| mitzugeben?

Es handelt sich bei den freien Schlagwörtern, die über die Zotero-Verfahren aus den Metadaten mitkommen, nicht ausschließlich um Sachschlagwörter. Es sind bspw. auch viele Geografika- oder Personen-Schlagwörter enthalten.

Ist es dann nicht besser, auf die Auslieferung des Indikators zu verzichten, wenn er nicht verpflichtend ist?

IxTheoKm commented 7 months ago

Nach meiner Erinnerung war ursprünglich mal ein Indikator obligatorisch. Das hat sich irgendwann geändert. Was auf jeden Fall m.E. beibehalten werden sollte, ist der Indikator |f|, der für bestimmte Formschlagwörter definiert ist, damit die Facette "Genre" richtig bedient wird. Die Facetten "Region..." und "Zeit..." werden ohnehin nicht richtig mit Keywords bedient, die (fälschlich) den Indikator |s| haben. Insofern finde ich den Vorschlag gut.

jriedl commented 7 months ago

Warum hat man sich bei den Zotero-Verfahren dazu entschieden, immer den Indikator |s| mitzugeben?

Wir geben keinen Indikator mit, sondern liefern die Schlagwörter in MARC 650 (Ausnahme Rezension in 655). Das scheint aber auch direkt so übernommen/ausgespielt zu werden, vgl. z.B. https://ixtheo.de/Record/1883974208#details. Falls es in WinIBW als Sachschlagwort ausgezeichnet wird liegt es vermutlich an der Lieferung in 650. Wenn man das ändern will, müsste man die 6XX-Felder "korrekt" belegen, das hieße aber eine inhaltliche Analyse der verwendeten Schlagwörter, das scheint ein eigenständiges Projekt.

Die Facetten "Region..." und "Zeit..." werden ohnehin nicht richtig mit Keywords bedient, die (fälschlich) den Indikator |s| haben. Insofern finde ich den Vorschlag gut.

Hinsichtlich der Facetten ist zu überlegen, dass |s| für die Facette "Thema Schlagwort" (in 689) ausgewertet wird. Ansonsten fließen natürlich die 650-Felder ein (da Sachschlagwörter).

IxKo commented 7 months ago

Wir geben keinen Indikator mit, sondern liefern die Schlagwörter in MARC 650 (Ausnahme Rezension in 655). Das scheint aber auch direkt so übernommen/ausgespielt zu werden, vgl. z.B. https://ixtheo.de/Record/1883974208#details. Falls es in WinIBW als Sachschlagwort ausgezeichnet wird liegt es vermutlich an der Lieferung in 650. Wenn man das ändern will, müsste man die 6XX-Felder "korrekt" belegen, das hieße aber eine inhaltliche Analyse der verwendeten Schlagwörter, das scheint ein eigenständiges Projekt.

Es scheint leider laut der K10plus-Formatdokumentation keinen Unterschied beim MARC-Format zu geben zwischen 650 |s| und 650 ohne |...| Hingegen gibt es gesonderte MARC-Felder für bspw. |p| 600 und für |g| 651 Demnach müsste es mit dem BSZ bzgl. des Konverters geklärt werden, sofern wir uns dazu entscheiden.

Es scheint nach Absprache mit dem BSZ auch möglich zu sein, diese Schlagwörter als "freie Schlagwörter" mit Code [FS] zu kennzeichnen. Ich bin mir nicht sicher, ob das bei den Keywords aus den Metadaten immer zutreffend ist und ob eine explizite Kennzeichnung als freie Schlagwörter sinnvoll ist. Da es eher ein Thema der SE ist, und es womöglich Einfluss auf die VuFind-Facetten hat, sollten das andere Personen entscheiden.

Mir ging es nur darum, dass im Grunde alles mit Sachbegriff gekennzeichnet wird, obwohl es in einigen Fällen nicht zutreffend ist. Es ist jedoch nicht möglich, maschinell bspw. Personen oder Geografika zu erkennen und entsprechend zu kennzeichnen. Weshalb ich gar keine Kennzeichnung besser fände, als in einigen Fällen eine falsche. Für Form-Schlagwörter gibt es diese Enhancement-Map, soweit ich weiß.

jriedl commented 7 months ago

Weshalb ich gar keine Kennzeichnung besser fände, als in einigen Fällen eine falsche.

Ich würde immer noch vermuten, dass es einfach nur daran liegt, dass wir die Schlagwörter in 650 liefern und diese deshalb zu Sachschlagwörtern werden (vgl. https://wiki.k10plus.de/display/K10PLUS/MARC21-Exportformat?preview=/27361336/669843476/Pica_Marc_Titeldaten_K10plus_20240129_Wiki.xlsx). Entscheidend für uns im Fall von [FS] wäre, in welchem MARC-Feld die Daten wieder ausgeliefert werden, denn anhand dessen entscheidet sich die Zuordung zu Facetten. Es müsste also ein Schlagwortfeld gefunden werden, das "bedeutungsneutral" ist. Mir wäre ein solches nicht bekannt, wegen der Facettenzuordnung würde das ohnehin zu Problemen führen. Einzig "saubere" Lösung scheint, die Schlagwörter von vornherein in den "richtigen" Feldern abzulegen (s.u.) oder im Nachgang manuell zu bereinigen.

Es ist jedoch nicht möglich, maschinell bspw. Personen oder Geografika zu erkennen und entsprechend zu kennzeichnen.

Theoretisch könnten sich da zukünftig Möglichkeiten ergeben, aber das ist noch nicht spruchreif und vor allem nicht "einfach so" zu machen.

IxTheoKm commented 7 months ago

oder im Nachgang manuell zu bereinigen.

Das fällt definitiv aus, da es Massen sind!

IxKo commented 7 months ago

Es gebe noch den Schlagwort-Indikator |u| für unbekannt: <datafield tag="653" ind1=" " ind2=" "><subfield code="a">unbekannt</subfield></datafield>

Es ist jedoch nicht möglich, maschinell bspw. Personen oder Geografika zu erkennen und entsprechend zu kennzeichnen.

Theoretisch könnten sich da zukünftig Möglichkeiten ergeben, aber das ist noch nicht spruchreif und vor allem nicht "einfach so" zu machen.

Hier hätte ich mich vielleicht etwas klarer ausdrücken sollen und "nicht einfach möglich" schreiben sollen. Mit einer Mapping-Liste, in der wir manuell aufgetretene und aufgefallene Fälle eintragen, wäre es auf jeden Fall nicht getan.

Vielen Dank für die Beteiligung aller bisherigen Personen. Es ist ein Vorschlag gewesen. Ob und in welchem Endprodukt dieser umgesetzt werden sollte, müssen andere entscheiden. Und erst dann müsste überlegt werden, wie die Umsetzung genau erfolgt.

socheres commented 7 months ago

Indikator wird in Zotkat nicht mehr hinzugefügt. Für Zotaut bitte BSZ kontaktieren und den Defaultkonverter anpassen lassen. Indikator soll beim Laden in K10+ nicht automatisch hinzugefügt werden. Ausgangsdatei "650 _4 $a", Umsetzung > ohne Indikator "5520 ..."

jriedl commented 7 months ago

Indikator wird in Zotkat nicht mehr hinzugefügt. Für Zotaut bitte BSZ kontaktieren und den Defaultkonverter anpassen lassen. Indikator soll beim Laden in K10+ nicht automatisch hinzugefügt werden. Ausgangsdatei "650 _4 $a", Umsetzung > ohne Indikator "5520 ..."

Leider ist mir der Sinn dieses Vorgehens nicht ganz nachvollziehbar - inwiefern werden damit die oben erläuterten und diskutierten Aspekte gelöst - entscheidend ist doch, was am Ende durch das BSZ wieder ausgespielt wird.

socheres commented 7 months ago
Zotaut-Metadaten Konvertierung 1 Wie liefern wir ans BSZ? (Defaultlieferweg) 2 Wie wird in Pica umgesetzt? (Basis-/Default-Konverter) 3 Wie wird ausgeliefert? (Standard-Konkordanz “Pica_Marc_Titeldaten_K10plus”) 4 Wie wird in IxTheo angezeigt? (SOLR-Indexierung)
<datafield tag="650" ind1=" " ind2="4"><subfield code="a">Metamorphosis</subfield></datafield> 5520 |s|Metamorphosis <datafield tag="650" ind1=" " ind2="4"><subfield code="a">Metamorphosis</subfield></datafield> In der Facette “Thema(Schlagwort)”
socheres commented 7 months ago

@jriedl 5520 Feld in WiniBW ohne Indikator wird genauso ausgeliefert wie mit Indikator

Pica3 MARC-Ansicht
5520 |s|Bernard Charbonneau 650 4$aBernard Charbonneau
5520 |s|Jacques Ellul 650 4$aJacques Ellul
5520 |s|communion spirituelle 650 4$acommunion spirituelle
5520 |s|éco-spiritualité 650 4$aéco-spiritualité
5520 écologie politique 650 4$aécologie politique
IxKo commented 7 months ago

Indikator wird in Zotkat nicht mehr hinzugefügt.

Ich kann bestätigen, dass beim Export im halbautomatischen Zotero-Verfahren nun kein Sachschlagwort-Indikator |s| exportiert wird.

socheres commented 7 months ago

Leider ist mir der Sinn dieses Vorgehens nicht ganz nachvollziehbar - inwiefern werden damit die oben erläuterten und diskutierten Aspekte gelöst - entscheidend ist doch, was am Ende durch das BSZ wieder ausgespielt wird.

Mein Vorschlag löst nicht das grundlegende Problem der vers. SW-Gattungen. Würde man nur mit normiertem GND-Vokabular in der Facette(Schlagwort) arbeiten und alles andere als Keywords(=Freie Schlagwörter) in eine eigene Facette verschieben, wäre eine solche Unterscheidung (Person, Werk, Körperschaft, Geographica, teilweise auch Form- und Zeitschlagwort) möglich. Dies wurde aber seinerseits anders entschieden.

IxKo commented 7 months ago

Indikator wird in Zotkat nicht mehr hinzugefügt. Für Zotaut bitte BSZ kontaktieren und den Defaultkonverter anpassen lassen. Indikator soll beim Laden in K10+ nicht automatisch hinzugefügt werden. Ausgangsdatei "650 _4 $a", Umsetzung > ohne Indikator "5520 ..."

Es gibt noch einen kleinen Nebeneffekt bzgl. dem Tag "RezensionstagPica": Beim Export wird zwar wie gewünscht 1131 !Rezension! erzeugt, aber in 5520 wird RezensionstagPica exportiert. Kann das noch behoben werden?

socheres commented 6 months ago

@IxKo Bei mir wird 5520 RezensionstagPica nicht exportiert. Haben Sie Beispiele?

IxKo commented 6 months ago

https://brill.com/view/journals/jecs/75/1-2/article-p121_4.xml?ebody=full%20html-copy1 Beim Import wird unter Tags "RezensionstagPica" importiert. (Wir vergeben dies auch manuell, wenn der Import-Translator die Rezensionen nicht automatisch kennzeichnet.)

Beim Export wird dann korrekt 1131 !106186019! (Rezension) erzeugt, aber auch 5520 RezensionstagPica: image

socheres commented 6 months ago

Habe den Translator angepasst. Bitte testen!

IxKo commented 6 months ago

Vielen Dank, es passt nun!

mara-spiess commented 1 week ago

@IxKo Kann dieses Issue geschlossen werden?

IxKo commented 1 week ago

@IxKo Kann dieses Issue geschlossen werden?

Ich bin mir nicht sicher, da es - glaube ich - für das vollautomatische Verfahren noch keine Einigung gab.

jriedl commented 3 days ago

Hier scheint es sinnvoll, noch einmal grundsätzlich zu überlegen, wie das zukünftig behandelt werden soll. Im Kontext NACJD führt der aktuelle Ansatz ja ebenfalls zur "Nichtabbildbarkeit" bestimmter Konstellationen.

jriedl commented 1 day ago

Austausch mit dem BSZ: Aufgrund der fixen Zuordnung beim Import führt eine Lieferung in 650 immer zu einer Auszeichnung mit |s|. Falls auf eine Typzuweisung verzichtet werden soll, müsste zukünftig in einem anderen Feld geliefert werden, z.B. 653.

IxKo commented 1 day ago

Es gebe noch den Schlagwort-Indikator |u| für unbekannt: <datafield tag="653" ind1=" " ind2=" "><subfield code="a">unbekannt</subfield></datafield>

Das MARC-Feld 653 hatte ich bereits als Vorschlag gegeben.

Dies scheint in der WinIBW mit dem Indikator |u| für unbekannt indexiert zu sein.

Falls das umgesetzt werden sollte, müsste das dann aber auch beim halbautomatischen Verfahren so umgesetzt werden, oder (damit es einheitlich ist)?

jriedl commented 1 day ago

Vielleicht liegt hier auch ein Missverstädnis vor: Welchen Sinn hatten die Änderungen beim halbautomatischen Verfahren, bei der Lieferung auf den Indikator zu verzichten, wenn es ohnehin gleich ausgespielt wird und das BSZ selbst davon ausgeht, dass ein Hinterlegen in 650 ein Sachschlagwort bezeichnet.

@jriedl 5520 Feld in WiniBW ohne Indikator wird genauso ausgeliefert wie mit Indikator Pica3 MARC-Ansicht 5520 |s|Bernard Charbonneau 650 4$aBernard Charbonneau 5520 |s|Jacques Ellul 650 4$aJacques Ellul 5520 |s|communion spirituelle 650 4$acommunion spirituelle 5520 |s|éco-spiritualité 650 4$aéco-spiritualité 5520 écologie politique 650 4$aécologie politique

653: Kann natürlich so umgesetzt werden, dann würde im Zotaut-Verfahren zukünftig regulär überhaupt kein 650-Feld mehr geliefert werden. Aus Nutzersicht würde sich allerdings m.E. nichts ändern, da im Ergebnis die gleiche Facetten befüllt werden. Wenn, sollte mit der Umstellung auf jeden Fall gewartet werden, bis die beim BSZ im NACJD-Zusammenhang angefragten Änderungen in den Produktivbetrieb gegangen sind. Aber selbst dann stellt sich m.E. die Frage, ob der Gewinn einer Anpassung hinreichend groß ist, schließlich fließt das "Mischmasch" bereits seit Jahren nach 650.

IxKo commented 1 day ago

Ich habe dieses Issue als Vorschlag aus Katalogisierungssicht geöffnet. Da es auch die anderen Indikatoren gibt, erschien es mir nicht korrekt, alle Schlagwörter ungesehen nur mit dem einen Indikator zu belegen.

Dass diese Indikatoren für keine Systeme/Facetten eine Rolle zu spielen scheinen, war mir nicht klar.

Dass es von der Leitung so schnell für das halbautomatische Verfahren umgesetzt worden ist und wir nun für das vollautomatische Verfahren vor Problemen stehen, war nicht Absicht dieses Issues.

Was mit dem NACJD-Zusammenhang gemeint ist, weiß ich nicht und kann ich nicht beurteilen. Vielleicht sollten sich hier andere Personen dazu äußern.

jriedl commented 1 day ago

Wollte keine Missstimmung reinbringen. Zur Erläuterung: Da wir vom BSZ MARC-Daten geliefert bekommen, haben die (PICA-)Indikatoren für uns grundsätzlich nur dann eine potentielle Auswirkung, wenn ein Setzen zu irgendeiner Anpassung in den ausgespielten MARC-Daten führt. Das scheint in diesem Fall nach aktuellem Kenntnisstand nicht so zu sein. Bei den anderen, oben angesprochenen Indikatoren |f|,|p|,|g| führt das aber tatsächlich zu anderen MARC-Feldern (655, 600/610, ..) und ist damit für uns prinzipiell auswertbar. Bei NACJD handelt es sich um ein Dateneinspielungsprojekt im Krimdok-Kontext. Hier trat der Effekt auf, dass auch in 655 gelieferte Formschlagwörter als Sachschlagwörter nach 650 importiert wurden, weshalb Änderungen im Importkonverter auf BSZ-Seite notwendig sind. In diesem Zusammenhang wurde auch die Thematik mit den Indikatoren aus diesem Issue beim BSZ thematisiert, bzw. die Frage gestellt, ob grundsätzlich auf einen Indikator beim Import von 650 verzichtet werden kann. Das ist aber nicht der Fall, da die Implementierung des BSZ von einer festen Zuordnung zwischen MARC-Feld und PICA-Indikator ausgeht und ansonsten auch offenbar auch unklar wäre, wie sich |s| bei der Lieferung explizit setzen ließe.

Die "Thema (Schlagwort)"-Facette ist ein "Auffangbecken" für diejenigen Schlagworte ist, für die keine spezifischere Facette existiert, deshalb fließen hier sowohl 650 als auch 653 ein, und darum der Hinweis, dass es aus Nutzersicht zu keinen Unterschieden führt. Wir können bei Zotaut natürlich auf 653 gehen, aber wie Sie richtig bemerken, müsste Zotkat dann auch wieder angepasst werden und eventuell gibt es dann doch wieder irgendwo einen Grenzfall, bei dem 653 anders behandelt wird als 650. Deshalb die Frage, ob hier der Aufwand der Umstellung im Verhältnis zum Ergebnis steht. Was m.E. perspektivisch sinnvoller erscheint (auch wenn es in diesem Zusammenhang aktuell noch Zukunftsmusik ist) wäre eine thematische Klassifizierung der von Zotero gelieferten Schlagwörter und die Lieferung in den "richtigen" Feldern.