ubtue / DatenProbleme

0 stars 0 forks source link

ISSN 1783-1423 Ephemerides Theologicae Lovanienses Sprachcode #162

Closed kdr154 closed 5 years ago

kdr154 commented 5 years ago

Falscher unterschiedlicher Sprachcode bei verschiedenen Aufsätzen, die auf deutsch verfasst wurden hier fre: http://poj.peeters-leuven.be/content.php?url=article&id=3285206 hier eng: http://poj.peeters-leuven.be/content.php?url=article&id=3285207

shadeMe commented 5 years ago

Bei dem ersten Beispiel ist die Sprache deutlich nicht Französisch (ein Fehler, den ich gerade behoben habe) aber dieser Fall ist deswegen problematisch, da der Title und die Zusammenfassung auf unterschiedliche Sprachen sind. Hier braucht unsere Heuristik bestimmte Vorgabe, welches Feld sie auswerten sollte. Sonst wird die Sprache genommen, die am meisten im Text vorkommt.

Bei dem zweiten Beispiel landet sie (bzw. die neue Heuristik, nicht was gerade auf nu verfügbar ist) auf Französisch anhand des Titels und auf Deutsch anhand der Zusammenfassung. Hier wäre es am günstigsten, die Zusammenfassung auszuwerten. Jedoch kann die Feld-Angabe nicht pro Artikel sonder pro Zss eingestellt werden. Von daher schließt die Lösung eines Beispieles die andere aus.

Als Standard-Einstellung werten wir Titel und Zusammenfassungen beides auf und sie scheint uns, die am vernünftigsten zu sein aber bei solchen Sonderfällen funktioniert sie doch nicht.

shadeMe commented 5 years ago

Wir haben jetzt die Heuristik umgestellt dadurch, dass sie als Standard nur den Titel auswertet. Das sollte hoffentlich die Falsch-Positive vermindern.

kdr154 commented 5 years ago

bei http://poj.peeters-leuven.be/content.php?url=article&id=3285207 wird jetzt fre ausgegeben. Der Titel ist aber Latein, der Untertitel deutsch, das Abstract deutsch. Der Aufsatz ist auf deutsch verfasst. Schwer zu sagen, welche Methode die bessere ist. Hier sieht es so aus, als wäre die Titel-Abstract Kombi besser

shadeMe commented 5 years ago

Bei dieser Zeitschrift lässt sich das Problem nicht leicht lösen, befürchte ich. Wenn wir zu der Titel-Abstract Kombi zurückkehren würden, wären wir wieder genau so weit wie zuvor. Leider wird's immer Falsch-Positive geben. Einzelfälle wie dieser müssten dann händisch behoben werden.

shadeMe commented 5 years ago

Vgl. #192.

shadeMe commented 5 years ago

Wie bei #192 , kann diese Issue auch geschlossen werden, da keine Verbesserungen weiterhin möglich sind.

kdr154 commented 5 years ago

ok