ubtue / DatenProbleme

0 stars 0 forks source link

ISSN 1939-3881 | CrossCurrents | Autoren-Regex Test Crawl #1562

Open kdr154 opened 3 years ago

kdr154 commented 3 years ago

Hier gibt es mehrere Probleme mit dem Autoren-Regex "^(\w+(\s|-?(\w+))),\s?(\w(.|\w)(\s(\w(.|\w))))$"

  1. Zeichen, die nicht in die nicht in die Kategorie der non-word-characters \w [^a-zA-Z0-9_]) fallen, führen einem Fehler. dass sind alle Sonderzeichen, aber auch die Umlaute Beispiele: Das Betonungszeichen auf dem i bei Rodríguez-Plate, S. Brent in https://muse.jhu.edu/article/795004 Umlaute: wie das ö bei Krondorfer, Björn in https://muse.jhu.edu/article/782608 Die Sonderzeichen bei Nguyễn, vănThanh in https://muse.jhu.edu/article/782685
  2. Es werden bei dieser Zeitschrift offensichtlich zwei verschiedene Bindestriche erkannt. Warum erschließt sich mir nicht. Einmal scheinbar korrekt wie hier: Rodríguez-Plate, S. Brent Oft aber wird ein anderes Zeichen erkannt, eine Art Rechteck, was ebenfalls zu einem Fehler führt. Wie hier: Starr‐Morris, Ashley. Das sieht in der XML-Datei folgendermaßen aus: grafik der dazu gehörende Aufsatz ist: https://muse.jhu.edu/article/783436
jriedl commented 3 years ago

ad 1.) Ist das identisch zu #1412? Testweise könnte man für diese Zeitschrift \w durch \p{L} ersetzen (vgl. https://www.regular-expressions.info/unicode.html) ad 2.) Auf nu sieht es aktuell gut aus image Sollte aber im Bezug auf das QS Rahmen von 1.) mitgelöst werden.

jriedl commented 3 years ago

Nachtrag: \p{L}+

jriedl commented 3 years ago

Bitte noch nicht anpassen, das funktioniert so wahrscheinlich nicht u.a. wg. Greediness. Eventuell ist es sinnvoller, das über eine Negation auszudrücken.

jriedl commented 3 years ago

ad 1) Testweise für diese Zeitschrift auf nu eingetragen.

kdr154 commented 3 years ago

Aufsätze auf nu resettet.

kdr154 commented 3 years ago

Es wurde zwar nur ein Artikel versucht einzuspielen. Dieser scheitert aber wieder an dem Regex:

Validating record IxTheo#2021-07-14#92E44F6C3AD2D43467F6D9E193E7874C07C055D7... Record IxTheo#2021-07-14#92E44F6C3AD2D43467F6D9E193E7874C07C055D7 is invalid: 100: contents of subfield $a(Rodríguez-Plate, S. Brent) did not match regex "^((\p{L}+)+(\s|-?(\p{L}+))),\s?(\p{L}+(.|(\p{L}+))(\s((\p{L}+)(.|(\p{L}+)))))$" record with URL 'https://muse.jhu.edu/article/795004' already in database with the same hash (92E44F6C3AD2D43467F6D9E193E7874C07C055D7)

jriedl commented 3 years ago

Dass nur ein Artikel neu heruntergeladen wurde, scheint mit dem gänderteten RSS-Feed zusammenzuhängen. Die geresetteten Artikel sind hier nicht mehr vorhanden. Bzgl. des Regex scheint sich das Verhalten abhängig von der verwendeten Regex-Klasse zu unterscheiden. Das muss auf Code-Seite abgeklärt werden.

jriedl commented 3 years ago

Angepasste Version von validate_harvested_records auf nu.

kdr154 commented 3 years ago

Der Artikel wurde zurückgesetzt

kdr154 commented 3 years ago

Der Artikel wurde eingespielt.