UB-Mannheim / zotkat

Erweiterung von Zotero für die Katalogisierung
GNU Affero General Public License v3.0
45 stars 22 forks source link

Translator für Katalogisierung von Aufsätzen aus Sammelwerken im GBV #42

Closed anotherfami closed 7 years ago

anotherfami commented 7 years ago

Besteht die Möglichkeit neben dem PicaSWB-Translator auch eine Variante für den GBV zur Verfügung zu stellen? In diesem Fall speziell für die Erstellung von Katalogisaten von E-Book-Kapiteln? Ziel ist es durch das Erfassen von Aufsätzen die Nutzung via OPAC zu verbessern.

Der PicaSWB-Translator funktioniert sehr gut, im GBV gibt es aber bei der Erfassung Unterschiede in einzelnen Kategorien.

0500 Osu [statt Aou, steht für Elektronische Ressource im Fernzugriff/Unselbstständiges Werk (Aufsatz, Rezension)/Autopsie] 0501 Text$btxt [wird korrekt ausgegeben] 0502 Computermedien$bc [anders, da Elektronische Ressource] 0503 Online-Ressource$bcr [anders, da Elektronische Ressource] [1130 im GBV nicht vorgegeben, kann wegfallen] 1100 [wird korrekt ausgegeben] 1500 [wird korrekt ausgegeben] 1505 $erda [wird korrekt ausgegeben] [2000 ISBN wird bei Elektronischen Ressourcen weggelassen] 2051 [DOI ohne Resolving-URL z.B. "2051 10.1007/0-306-46864-6" - aber DOI wird beim Speichern in Zotero nicht mitgenommen] 3000 [_wird korrekt ausgegeben] 301x [wird korrekt ausgegeben_] 3290 Das @Marfan-Syndrom$pBerlin, Heidelberg$nSpringer ISBN 978-3-662-53259-1 [Müsste vor Eingabe ins CBS händisch eingefügt werden ... Erläuterung: "Bei Aufsätzen wird in Feld 3290 der Titel des selbstständigen Werkes, in dem der Aufsatz erscheint, zusätzlich zum Link in Feld 4241 erfasst. Feld 3290 wird in Aufsätzen indexiert."] 4000 [wird korrekt ausgegeben, allerdings wird die Kapitelnummer beim Speichern in Zotero als Teil vom Titel mit übernommen (z.B. als "1 - " oder "Chapter 1 - ")] 4061 [Feld enthält Angaben zu illustrierendem Inhalt nach RDA 7.15 - muss händisch ergänzt werden] 4070 $j2017$p22-35 [Bei Aufsätzen aus Sammelwerken ist nur das Jahr $j und die Seitenzahl $p notwendig] 4083 $a [enthält die elektronische Adresse und ergänzende Angaben für den Zugriff auf Online-Ressourcen $a leitet die URL (DOI + Resolving-URL) ein, z.B. "4083 $ahttp://dx.doi.org/10.1007/0-306-46864-6"] 4201 [Sonstige Anmerkungen können bei Bedarf händisch erfasst werden] 4207 [wird korrrekt ausgegeben "inhaltliche Zusammenfassung der Vorlage (Summary, Abstract usw.) - bis zu einer maximalen Länge von ca. 600 Zeichen" - die Abstracts der Verlage stehen meistens unter Copyright, mir ist unklar, ob eine Nutzung dieser Abstracts in einem Katalogisat erlaubt ist, die Kategorie taucht nur selten in bereits vorhandenen Osu-Katalogisaten auf] 4241 Enthalten in!671802984! [Verknüpfung zur übergeordneten größeren Einheit via PPN - muss händisch wergänzt werden] 5520 [wird korrrekt ausgegeben** aber selbe Frage wie bei 4207 Nutzung erlaubt oder nicht?_] [5056 SSG-Nummer oder FID-Kennzeichen - kann wegfallen]

Die Kategorien mit ** wurden bei meinem Test mit dem PicaSWB-Translator nicht ausgegeben. Fett markiert sind die Kategorien, die bereits korrekt ausgegeben werden.

Ich hoffe das ist einigermaßen übersichtlich. Meiner Meinung nach kann die Suche nach verknüpfbaren Normdaten in diesem Fall gerne wegfallen.

zuphilip commented 7 years ago

Okay, hier ist einmal ein erster Versuch um dies entsprechend umzuändern:

https://github.com/UB-Mannheim/zotkat/blob/a0c504a2c42bdf65f8f480a46c8bcde4d2cb73a7/PicaGBV.js

@anotherfami Bitte ausprobieren und Feedback geben.

anotherfami commented 7 years ago

Danke @zuphilip das sieht schon sehr gut aus!

0500 Osu 0501 Text$btxt 0502 Computermedien$bn 0503 Online-Ressource$bnc 1100 2013$n[2013] 1500 eng 1505 $erda 3000 Blanchard, E.$BVerfasserIn$4aut 3010 Zhu, P.$BVerfasserIn$4aut 3010 Schuck, P.$BVerfasserIn$4aut 3290 Handbook of Food Powders$nWoodhead Publishing 978-0-85709-513-8 4000 18 - Infant formula powders$hE. Blanchard 4061 4070 $j2013$p465-483 4083 $a//www.sciencedirect.com/science/article/pii/B9780857095138500182 4241 Enthalten inHandbook of Food Powders 5520 |s|composition 5520 |s|infant formula 5520 |s|production 5520 |s|spray drying

Ich habe mir den Code angesehen komme aber mit der Syntax? nicht zurecht und weiß nicht welche Ausgabeoption/Abfrageroutine wo steht und kann jetzt nur Vorschläge machen, was z.B. noch ergänzt werden könnte, ohne dass ich weiß, ob es nicht eigentlich schon angelegt ist oder eine dumme Idee ...

Vorschläge:

Fragen:

Allgemeines:

Vielen Dank für deine Mühe! Bereits so wie der Translator jetzt ist bietet er eine immense Arbeitserleichterung.

Vom Arbeitsablauf her würde ich jeweils alle Kapitel eines E-Books in eine Sammlung speichern und dann die gesamte Sammlung mit dem PicaGBV-Translator exportieren. In der Textdatei kann ich dann in Word oder, hier ist praktischerweise PsPad installiert, für alle Kapitel die einzelnen Kategorien mit Suchen und Ersetzen anpassen. Das einzige was ich dazu noch selbst besorgen muss ist einmalig die PPN des E-Book und die DOI. Da ich im jetzigen Fall die Kapitel-URLs sogar aus dem PsPad aufrufen kann dauert das nicht lange :)

zuphilip commented 7 years ago

Ist es möglich in der Kategorie 4000 hinter dem $h alle drei Verfasser nacheinander anzugeben? Damit die 30xx Kategorien und die Verfasser in der 4000 sich entsprechen?

Ja, das ist möglich. Dann ändere ich dies, dass alle Verfasser bei 4000 erscheinen.

Bei meinem "In Zotero speichern" fehlt nach dem Speichern im Feld URL: das "http:", darum fehlt es auch in der 4083. Ich weiß nicht, ob das nur bei mir so ist oder z.B. bei ScienceDirect immer so. Man kann da bestimmt was machen, aber ich weiß nicht, ob man muss und an welcher Stelle.

Dies kommt von den RIS Daten von Science Direct. Man kann dies aber im entsprechenden Translator versuchen nachzukorrigieren... (versuche mich darum zu kümmern)...

Das Feld müsste sowieso noch händisch überschrieben werden, da es ja laut Katalogisierungsrichtlinie mit DOI + Resolve-URL gefüllt sein soll.

Okay, dann wird das Feld immer mit DOI befüllt, soweit vorhanden. Kann man hier auf die neuen Empfehlung zurückgreifen und dies als https://doi.org schreiben?

Das Feld 4241 müsste auch noch jeweils nachträglich händisch mit Suchen und Ersetzen angefasst werden, da ich mir nicht vorstellen kann, dass man anhand von irgendwelchen externen Suchanfragen (sind das die pull URLs?) auf die richtige PPN des E-Book, also die mit Bestandsnachweis der eigenen Bibliothek (wir haben diverse E-Book-Dubletten im CBS) kommen kann.

Hier ist nur eine Tabelle hinterlegt, welche bei einer bekannten ISSN die jeweilige PPN hinschreibt. D.h. dies ist für den Fall von Zeitschriftenartikel gedacht aber nicht für Buchkapitel. Würde hier eher mit der ISBN dann recherchiert werden? Nützt es wenn man hier bereits den Buchtitel oder die ISBN hinschreibt, oder lieber leer lassen?


Ja, die Zotero Translators werden gepflegt, ausgebaut und erweitert. Dies wird im Normalfall immer automatisch eingespielt bei den Standard-Translators.

Bei Zotero gibt es momentan noch kein Feld für die DOI bei Buchkapitel und daher muss man sich mit dem Feld extra behelfen. Dies werte ich hier bereits aus und mit dem PR https://github.com/zotero/translators/pull/1233 werden hier noch viel mehr Werte hinzukommen, insbesondere auch Science Direct.

Die externen Abfragen habe ich momentan auskommentiert, da ich dazu momentan auch nicht Zeit habe, um mitzudenken. Prinzipiell ist dies alles anpassbar, aber für mich eher eine etwas ad-hoc Lösung.

anotherfami commented 7 years ago

Okay, dann wird das Feld immer mit DOI befüllt, soweit vorhanden. Kann man hier auf die neuen Empfehlung zurückgreifen und dies als https://doi.org schreiben?

Ich habe deswegen offiziell nachgefragt und sage Bescheid, sobald ich etwas höre.

Zu Feld 4241: Ich würde hier mit Suchen und Ersetzen arbeiten. Der Feldinhalt sollte meiner Meinung nach 4241 Enthalten in!PPN! sein. Dann könnte man direkt den Text PPN mit der Nummer ersetzen und würde auch daran erinnert, was genau in der Kategorie fehlt.

Wenn man in meinem Beispiel mit der von Zotero gespeicherten ISBN (eingeschränkt auf Elektronische Ressourcen) sucht stößt man auf zwei Treffer. E-Book-Dubletten sind meiner Erfahrung nach relativ häufig, da Fremddaten von verschiedenen Anbietern eingespielt werden und scheinbar keine Dublettenkontrolle bzw. manchmal auch keine nachträgliche Bearbeitung (Autopsie) erfolgt (vgl. https://gso.gbv.de/DB=2.2/CMD?ACT=SRCHA&IKT=1016&SRT=YOP&TRM=isb+978-0-85709-513-8+and+mak+oa%3F). Ohne Einschränkung findet man dazu natürlich auch noch die gedruckte Ausgabe. Wie gesagt sehe ich da keine Möglichkeit automatisiert korrekte PPNs (=diejenige mit dem eigenen Bestandsnachweis) zu ermitteln.

Die externen Abfragen habe ich momentan auskommentiert, da ich dazu momentan auch nicht Zeit habe, um mitzudenken. Prinzipiell ist dies alles anpassbar, aber für mich eher eine etwas ad-hoc Lösung.

ad-hoc heißt in diesem Fall, dass du diese externen Abfragen nicht optimal findest und eher als kurzfristige Lösung betrachtest?

Nochmal ein großes DANKE! @zuphilip

zuphilip commented 7 years ago

Okay, danke für die Rückmeldung. Da der Translator schon prinzipiell funktioniert, habe ich den jetzt auch aufgenommen (d.h. den pull request gemerged): https://github.com/UB-Mannheim/zotkat/blob/master/PicaGBV.js . Verbesserungen kann man natürlich dann noch jederzeit weiter machen. Wir können hier einfach noch weiter schreiben, wenn es noch Sachen gibt, welche anders sein sollen.

Deine Punkte sollten in der neuesten Version bereits in der neuesten Version eingeflossen sein: https://raw.githubusercontent.com/UB-Mannheim/zotkat/master/PicaGBV.js

Im README.md fehlt ein entsprechender Eintrag noch. Magst Du hier etwas vorschlagen?

  1. Auf den Stift zum Editieren klicken
  2. Einen Satz oder zwei einfügen in Markdown
  3. Grüner Button
  4. Vorschlag prüfen, beschreiben
  5. Grüner Button
  6. Warten bis ich drüber gucke

ad-hoc heißt in diesem Fall, dass du diese externen Abfragen nicht optimal findest und eher als kurzfristige Lösung betrachtest?

Ja, eher kurzfristig, aber könnte auch Probleme geben/haben. Das Hauptproblem beim online Recherchen während dem Export, ist die mögliche Asynchronität von JavaScript. Der Aufruf von neuen Webseiten wird im Normalfall asynchron gemacht, d.h. während der Wartzeit bis die angefragten Seiten etwas zurückmelden wird mit dem Hauptprozess bereits weitergemacht. Dies kann dazu führen, dass der Hauptprozess bereits die letzten Schritte (die Ausgabe) macht, wobei einige Anfragen noch gar nicht abgeschlossen sind. Auch von der Architektur her könnte es besser sein den Export und mögliche Look-ups mehr voneinander zu trennen. All dies könnte aber aufwendiger werden.

anotherfami commented 7 years ago

Ich habe den "Workflow" zur Erfassung von E-Book-Kapiteln mit dem Translator eben in der Praxis getestet. Das ging angenehm schnell und unkompliziert. Die Anzeige im GBV ist etwas gewöhnungsbedürftig, direkt bei uns im Katalog sieht es besser aus. Ein bisschen was kann man da im Exemplardatensatz auch noch optimieren. Ich hoffe der Link ist dauerhaft: Aufsätze im GBV

Beim Export sind mir noch zwei Dinge aufgefallen:

  1. Vor der DOI in 2051 ist ein Leerzeichen, genauso steht in 4083 vor der DOI ein Leerzeichen (also: $ahttps://doi.org/ 10.1533/... statt $ahttps://doi.org/10.1533/...)
  2. Zwei der Autoren wurden beim Export in PPNs umgewandelt. Die PPNs führten aber leider nicht zu den richtigen Personensätzen.

Es ist wahninnig toll, dass sogar die DOIs jetzt eingefügt werden können :) danke!

zuphilip commented 7 years ago

Beim angegebenen Link erscheint für mich ein Anmeldefenster. Wahrscheinlich darf ich auf die Datenbank GVK-PLUS DB=2.2 vom GBV von hier nicht zugreifen.

Punkte 1) und 2) sollten jetzt korrigiert sein in der neusten Version. Bitte neu kopieren und ausprobieren.

anotherfami commented 7 years ago

Ich habe völlig vergessen, dass DB=2.2 lizenziert sein muss um darauf zugreifen zu können. Mit DB=2.1 geht es jetzt hoffentlich. Neuer Link: Aufsätze im GBV

Ansonsten habe ich eben einen Eintrag mit der aktuellen Version konvertiert und es ist alles prima!

Die Rückmeldung wegen https:// ist auch gekommen und war positiv. URLs und DOIs können mit https:// erfasst werden. Sogar die Beispiele wurden dementprechend angepasst. Ich bin ganz begeistert :)

zuphilip commented 7 years ago

Ich schliesse diesen Issue hier einmal. Bei weiteren Anliegen am Besten einen neuen Issue machen. Viel Spass weiterhin beim Katalogisieren mit Zotero!