Closed IxKo closed 4 years ago
Der Translator liefert "af", das ist bei uns noch nicht registriert, siehe: https://github.com/ubtue/ub_tools/blob/40c06b88c03d57b41d26b89fcd5d214cc612b855/cpp/lib/src/TranslationUtil.cc#L56
Da bei uns intern das Mapping fehlschlägt wird als Fallback "eng" eingetragen, so wie es derzeit in der zotero_harvester.conf für diese Zeitschrift konfiguriert ist: https://github.com/ubtue/zotero-enhancement-maps/blob/942777f11ac2897ba9bdc5c098b3323ee1a15850/zotero_harvester.conf#L4690
Ich nehme an es handelt sich um Afrikaans, dementsprechend würde ich ein Mapping auf "afr" hinzufügen. Kann das seitens des BSZ so eingespielt werden?
Sollen bei der Gelegenheit noch weitere Sprachmappings hinzugefügt werden?
Hier gibt es eine Konkordanz von ISO 639-2 (die im K10plus zu verwenden ist) mit ISO 639-1: https://www.loc.gov/standards/iso639-2/php/code_list.php "af" steht in ISO 639-1 Evtl. müssen die 1er Codes hinzugefügt und nach 2 umgesetzt werden?
Unser Mapping ist mehrdimensional. Siehe auch: https://de.wikipedia.org/wiki/Liste_der_ISO-639-1-Codes
Wir versuchen sowohl 639-1 Codes (z.B. "de") als auch 639-2/T (z.B. "deu") auf 639-2/B (z.B. "ger") zu mappen und es dann als 639-2/B ans BSZ zu liefern.
Bei "af" ist sowohl 639-2/T als auch 639-2/B = "afr".
Bei so einer langen Liste ist die Frage ob wir tatsächlich alle aufnehmen müssen, es sind ja auch viele Sprachen wie z.B. Katalanisch, Tschuwaschisch, Dzongkha etc. dabei bei denen ich ernsthaft bezweifle dass wir jemals Artikel in diesen Sprachen aufnehmen werden.
Trotz des jetzt vorhandenen Mapping-Eintrags wird trotzdem noch nicht korrekt "afr" ausgegeben. Wir haben einen BUG entdeckt der die Anwendung von zotero_expected_languages (zotero_harvester.conf) beeinflusst, sofern nur 1 Sprache angegeben ist.
Beispiel:
zotero_expected_languages = eng
Eigentlich sollte "eng" nur gesetzt werden, wenn keine gültige Sprache vom Translator geliefert wird. Aktuell wird das aber IMMER angewendet (also auch wenn kein * angegeben ist), sofern genau 1 Sprache in zotero_expected_languages angegeben wurde. D.h. auch wenn der Translator in diesen Fällen eine Sprache liefert wird diese überschrieben.
Oder anders gesagt, es wird so behandelt als ob die Konfiguration wie folgt wäre:
zotero_expected_languages = *eng
Hier die betroffene Codestelle: https://github.com/ubtue/ub_tools/blob/d4b9979d665fe388011815cfdbd1bcc0c1ed8be3/cpp/lib/src/ZoteroHarvesterConversion.cc#L626
Wir arbeiten bereits an einer Lösung. Unterm Strich kann das sehr viele Zeitschriften beeinflussen, da derzeit mehrere hundert Zeitschriften auf diese Art konfiguriert sind.
/edit: Aufgrund der hohen Anzahl der betroffenen Zeitschriften setze ich das mal auf High Priority.
Es gibt sicher viele Sprachen, die wir selber nicht verwenden. Katalanisch sollte aber unbedingt dabei sein. Das kommt in einigen laufend ausgewerteten Zeitschriften vor.
Können Sie mir bitte eine konkrete Liste der Sprachen erstellen die aufgenommen werden sollen?
D.h. auch wenn der Translator in diesen Fällen eine Sprache liefert wird diese überschrieben. Unterm Strich kann das sehr viele Zeitschriften beeinflussen, da derzeit mehrere hundert Zeitschriften auf diese Art konfiguriert sind.
Sind davon jetzt schon Einspielungen betroffen?
Derzeit sind 3 Zeitschriften auf LIVE gesetzt. Diese sind alle von diesem Issue betroffen:
Die Änderung wird voraussichtlich heute im Lauf des Tages aktiv geschaltet. Da die Zeitschriften schon getestet wurden könnte ich die config für diese Zeitschriften z.B. von "eng" auf "eng" bzw. von "spa" auf "spa" ändern, damit das Verhalten gleich bleibt wie bisher.
Insgesamt gibt es in der Conf 358 Zeitschriften die von dieser Konfiguration betroffen sind (-3 LIVE = 355 TEST oder evtl auch NONE.). Die Frage ist ob wir diese jetzt so lassen, oder ob ich diese relativ per Regex Suche/ersetze ebenfalls auf die -Variante umstellen soll und ihr nur manuell das entfernen wollt sofern es Probleme gibt. Die Batch-Umstellung könnte ich relativ einfach selbst machen.
Man kann die betroffenen Einträge mit folgendem Regex (und einem passenden Editor) finden:
^zotero_expected_languages\s*=\s*[a-z]+$
Im Live-Betrieb (K10plus) ist noch kein Heft von den drei live-gesetzten Zss eingespielt.
Sprache stimmt nun
URL
Ausführliche Problembeschreibung Die Sprache dieser beiden Aufsätze ist nicht Englisch, wird aber in der Quelldatei mit Sprachcode eng angegeben.