ubtue / DatenProbleme

0 stars 0 forks source link

ISSN 1695-0194 | Revista Electrónica de Ciencia Penal y Criminología | Artikelauswahl und Verknüpfung #1316

Closed kdr154 closed 3 years ago

kdr154 commented 3 years ago

http://criminet.ugr.es/recpc/index.html Dateneinspielung 12./13. 1. Hier werden nur einzelne Artikel aus unterschiedlichen Heften aufgegriffen, die dann, wahrscheinlich, wegen mehreren unterschiedlichen Fehlern in der Errordatei landen:

grafik

Das ist jweils ein Artikel aus den Heften 20.2018, 21.2019 und 22.2020. Der Hash verweist dann aber jeweils auf einen anderen Aufsatz als den als "Main title" genannten. Zumindest wenn man der Error-Datei folgt. So heißt der main title unter delivered records auf nu: Recensión del libro de Sergi Cardenal Montraveta, La pena de multa. Estudio sobre su justificación y la determinación de su cuantía Im Error_log_file findet sich unter dem Hash ein anderer Titel. Nämlich der im Heft darüber liegende. Dieses Prinzip gilt für alle drei. Darüber hinaus heißt es im der Error-Datei, dass dieser Titel bereits unter einem anderen Hash geliefert wurde:

grafik

jriedl commented 3 years ago

In krimdok_zotero_210112_001_errors.xml.log findet sich sehr viele Artikel, die wegen angeblich fehlender Felder (fehlendes 773 g, fehlendes 936 e (Heft) ,h(Seitenangabe)) aussortiert werden. Da die Zeitschrift inhaltlich im Rahmen der Tests auf nu schon einmal überprüft wurde, wäre der Vorschlag, die fraglichen Felder einfach auf "sometimes" setzen, die Zeitschrift bei uns resetten und dann zu sehen, was hochgeladen wird.

kdr154 commented 3 years ago

So gehe ich vor und habe auch schon das meiste angepasst. Hier scheint mir aber das Problem woanders zu liegen.

kdr154 commented 3 years ago

Die auf nu gelisteten Aufsätze und die an diesem Tag eingespielten stimmen nun annähernd überein. Auf nu sind 80 gelistet. Eingespielt wurden 83. in der krimdok.xml von heute finden sich 87 Einträge mit dieser ISSN

jriedl commented 3 years ago

Aktuell werden 84 Aufsätze in nu angezeigt. Stimmt das mit der Anzahl in der Testdatenbank überein?

kdr154 commented 3 years ago

Stimmt überein

jriedl commented 3 years ago

Im Bezug auf die Ausgabe in der Error-Datei hat es ja mittlerweile anpassungen gegeben. Die höhere Anzahl der Records in der XML-Datei rührt daher, dass eine geringe Anzahl Records (im aktuellen lokalen Test 4 von 88) doppelt geharvestet werden. Da das Crawl-Verfahren die "Unter"-URLs durchgeht, erscheint das nicht unplausibel. Da diese doppelten Records aber identischen Hashes führen, sollte das für die Praxis aber unproblematisch sein (deshalb tauchen sie auch nur einmal in der Datenbank auf). Zur Sicherheit kann man nu noch einmal resetten, aber im Prinzip gehe ich davon aus, dass man diese Zeitschrift auch live nehmen kann.

kdr154 commented 3 years ago

Ich setze sie auch auf live.