Open kdr154 opened 3 years ago
ad 1.) Ist das identisch zu #1412? Testweise könnte man für diese Zeitschrift \w
durch \p{L}
ersetzen (vgl. https://www.regular-expressions.info/unicode.html)
ad 2.) Auf nu sieht es aktuell gut aus
Sollte aber im Bezug auf das QS Rahmen von 1.) mitgelöst werden.
Nachtrag: \p{L}+
Bitte noch nicht anpassen, das funktioniert so wahrscheinlich nicht u.a. wg. Greediness. Eventuell ist es sinnvoller, das über eine Negation auszudrücken.
ad 1) Testweise für diese Zeitschrift auf nu eingetragen.
Aufsätze auf nu resettet.
Es wurde zwar nur ein Artikel versucht einzuspielen. Dieser scheitert aber wieder an dem Regex:
Validating record IxTheo#2021-07-14#92E44F6C3AD2D43467F6D9E193E7874C07C055D7... Record IxTheo#2021-07-14#92E44F6C3AD2D43467F6D9E193E7874C07C055D7 is invalid: 100: contents of subfield $a(Rodríguez-Plate, S. Brent) did not match regex "^((\p{L}+)+(\s|-?(\p{L}+))),\s?(\p{L}+(.|(\p{L}+))(\s((\p{L}+)(.|(\p{L}+)))))$" record with URL 'https://muse.jhu.edu/article/795004' already in database with the same hash (92E44F6C3AD2D43467F6D9E193E7874C07C055D7)
Dass nur ein Artikel neu heruntergeladen wurde, scheint mit dem gänderteten RSS-Feed zusammenzuhängen. Die geresetteten Artikel sind hier nicht mehr vorhanden. Bzgl. des Regex scheint sich das Verhalten abhängig von der verwendeten Regex-Klasse zu unterscheiden. Das muss auf Code-Seite abgeklärt werden.
Angepasste Version von validate_harvested_records
auf nu.
Der Artikel wurde zurückgesetzt
Der Artikel wurde eingespielt.
Hier gibt es mehrere Probleme mit dem Autoren-Regex "^(\w+(\s|-?(\w+))),\s?(\w(.|\w)(\s(\w(.|\w))))$"