ubtue / DatenProbleme

0 stars 0 forks source link

ISSN 1570-0593 | Aries (Brill, Test) | Spracherkennung #1359

Closed IxKo closed 3 years ago

IxKo commented 3 years ago

URL 60D6C38C16444DDD95C4BCA3E1CFCC64D554641D | https://brill.com/view/journals/arie/21/1/article-p1_1.xml

Ausführliche Problembeschreibung Der Artikel landete in den Errors, weil keine eindeutige Sprache gefunden wurde. Englisch wäre korrekt gewesen und ist auch given language. Ermittelt wurde aber seltsamerweise ger bei diesem Titel: "Rethinking Aleister Crowley and Thelema : New Perspectives"

CLI Output auf Nu bei TRY URL: Converting item 1 [Aries : journal for the study of Western esotericism...] | https://brill.com/view/journals/arie/21/1/article-p1_1.xml {480117388898479750} use online ISSN "1570-0593" with online PPN "349880581" Normalized language: en => eng generated too few ngrams (207 < 400)! eng scored :0.647162 fre scored :0.612876 ger scored :0.647442 ita scored :0.557797 The given language eng and the detected language ger are different. No language will be set. post-processed author first name = 'Manon Hedenborg', last name = 'White', title = '', affix = '' added GND number 1203663285 for author White, Manon Hedenborg (SWB lookup) Augmented metadata record: MetadataRecord { url: https://brill.com/view/journals/arie/21/1/article-p1_1.xml, item_type: journalArticle, title: Rethinking Aleister Crowley and Thelema: New Perspectives, short_title: Rethinking Aleister Crowley and Thelema, abstract_note: "Rethinking Aleister Crowley and Thelema" published on 14 Dec 2020 by Brill., publication_title: Aries : journal for the study of Western esotericism,

Es ist nicht tragisch, aber eventuell ein gutes Beispiel, um die Spracherkennung zu verbessern?

Weiteres sehr ähnliches Beispiel: https://brill.com/view/journals/arie/20/2/article-p284_8.xml

Normalized language: en => eng generated too few ngrams (279 < 400)! eng scored :0.692319 fre scored :0.676848 ger scored :0.702184 ita scored :0.628573 The given language eng and the detected language ger are different. No language will be set. post-processed author first name = 'Misha', last name = 'Kakabadze', title = '', affix = '' keyword matched review pattern Augmented metadata record: MetadataRecord { url: https://brill.com/view/journals/arie/20/2/article-p284_8.xml, item_type: review, title: High Weirdness: Drugs, Esoterica, and Visionary Experience in the Seventies, by Erik Davis, short_title: High Weirdness,

ruschein commented 3 years ago

Das Programm hat sich korrekt verhalten. Die einzig offensichtliche Art die Spracherkennung anhand diesen Beispiels zu verbessern wäre es den Volltext auch noch auszuwerten. Das ist aber nicht trivial weil er nicht Teil der von Zotero zurückgelieferten Daten ist.