Closed acka47 closed 4 years ago
Wir werden zunächst eine Test-Update-Datei entsprechend dem im Wiki beschriebenen tsv-Format erstellen müssen:
HT019164048 "https://nwbib.de/spatial#n20 Ruhrgebiet", "https://nwbib.de/spatial#Q2100 Duisburg", "https://nwbib.de/spatial#Q2066 Essen", "https://nwbib.de/subjects#s768010 Einzelne Autoren
Da lässt sich bestimmt komplett mit jq aus den JSON-Daten generieren, ist aber momentan ziemlich aufwendig, weil die URIs zusammengebaut werden müssten und die relevanten Daten verteilt in subject[].notation
und spatial.id
liegen. Sinnvoll ist es, die Update-Datei erst nach der Implementierung von #468 umsetzen, wenn wir die richtigen URIs in den Daten haben und uns diese leicht aus spatial[].id
und subject[].id
holen können.
Die Verbundgruppe möchte diese Woche eine vollständige Datei wie hier beschrieben zum Testen:
HT019164048 "Ruhrgebiet$$0https://nwbib.de/spatial#N20", "Duisburg$$0https://nwbib.de/spatial#Q2100", "Essen$$0https://nwbib.de/spatial#Q2066", "Einzelne Autoren (Primärliteratur)$$0https://nwbib.de/subjects#N768010"
I started playing around with a test file and jq but I am not up to the task. It looks quite good if I add indexes like this:
$ cat test.json | jq -r '.member[] | .hbzId + "\t" + .subject[0].label + "$$" + .subject[0].id + ", " + .spatial[0].label + "$$" + .spatial[0].id'
With my test file, I get something like this:
HT016313194 Einzelne Hochschullehrer und Wissenschaftler$$https://nwbib.de/subjects#N797010, Bergkamen$$https://nwbib.de/spatial#Q4192
HT019484530 Heimatvereine$$https://nwbib.de/subjects#N106000, Verlautenheide$$https://nwbib.de/spatial#Q2190271
HT016269695 Film$$https://nwbib.de/subjects#N804000, Köln$$https://nwbib.de/spatial#Q365
HT019485881 Glas$$https://nwbib.de/subjects#N849056, Hagen$$https://nwbib.de/spatial#Q2871
HT016456740 Industriebetriebe$$https://nwbib.de/subjects#N547460, Lünen$$https://nwbib.de/spatial#Q3822
HT020051058 Nottuln | Öffentliches Gebäude | Geschichte 1748-1750$$, Nottuln$$https://nwbib.de/spatial#Q14939
TT002945134 Lehnen, Maria | Ausstellung | Stuttgart <1991>$$, Lobberich$$https://nwbib.de/spatial#Q447359
TT002946550 Künstler$$https://nwbib.de/subjects#N841070, Düsseldorf$$https://nwbib.de/spatial#Q1718
TT002945584 Künstler$$https://nwbib.de/subjects#N841070, Siegburg$$https://nwbib.de/spatial#Q14870
TT002947238 Geschichte der Juden$$https://nwbib.de/subjects#N632000, Köln$$https://nwbib.de/spatial#Q365
TT002946252 Düsseldorf | Bundesgartenschau 1987$$, Düsseldorf$$https://nwbib.de/spatial#Q1718
TT002943826 Das Junge Rheinland, Künstlervereinigung | Politisches Bewusstsein | Geschichte 1919-1936 $$, Rheinland$$https://nwbib.de/spatial#N03
TT002945029 Künstler$$https://nwbib.de/subjects#N841070, Düsseldorf$$https://nwbib.de/spatial#Q1718
TT002945115 Künstler$$https://nwbib.de/subjects#N841070, Düsseldorf$$https://nwbib.de/spatial#Q1718
HT016272019 Grabmale$$https://nwbib.de/subjects#N617050, Alt-Godesberg$$https://nwbib.de/spatial#Q432917
HT020103643 $$, $$
But I don't know how to iterate over each object in the subjectand
spatialarray so that I can add them to the output. Using
[]will combine every
labelwith every
id` from each object in the array in the output. @fsteeg, maybe we can have a look together tomorrow...
The last resource in the test file (HT020103643) neither has a spatial
entry nor an nwbib subject. Those resources should be filtered out beforehand but we will nonetheless have resources that have only one (spatial OR nwbib subject).
Hier die Anfrage, die wir verarbeiten müssen:
Das sind alle lobid-Titel, die
spatial
-Eintrag oder einen subject
-Eintrag aus des NWBib-Sachsystematik haben.I updated the test file to not include the entry without any subjects from an NWBib classification but two cover both cases where only subjects from one of the classifications exist.
700n-import.zip
+1 Pack it up send it in.
Die Verbundgruppe meldet, dass die Testlieferung ok ist. In der 48./39. KW wird das tatsächliche Update-Verfahren gestartet. Da es sich dabei um die SWIB-Woche handelt, sollten wir anfangen, die Morph entsprechend anzupassen.
Übermorgen (Donnerstag, 5.12.) wird die Katalogisierung umgestellt, das heißt ab dann werden – mit Ausnahme der ZDB-Daten – URIs anstatt Ortsstrings katalogisiert. Dementsprechend sollten wir am Donenrstag eine neue Importdatei generieren, die dann als Basis für die hbz01-Aktualisierung dient.
Updated import file (see https://github.com/hbz/lobid-resources/issues/1018):
Wir müssen die Werte umdrehen, die Raumsystematikeinträge sollen vor den Sachsystematikeinträgen stehen. Die Importdatei soll dafür neu generiert und bis Donnerstag an die Verbundgruppe geliefert werden.
On 10.12.19 11:20, U.P. wrote:
es scheinen ja schon Altdaten umgesetzt zu werden. Dabei ist uns aufgefallen, dass die Reihenfolge der Raumnotationen, die ja in der TA immer zuerst kommen, mit den Sachnotationen vertauscht wurden. Zumindest in hbz01 stellt sich das so dar. Das sollte eigentlich nicht sein.
Latest import file, with swapped spatial and subjects:
700n-import-20191212.txt.zip (based on data from 20191205)
And one more, with both swapped order and 319 now containing Siebengebirge/Q4236 (see #507).
700n-import-20191212-1300.txt.zip (based on data from 20191211)
Import file with fixed issues due to catalog changes and Siebengebirge as N23:
Es sieht so aus, als ob etwa 10k Titel nicht abgedeckt waren mit der Import-Datei. Eine Suche nach _exists_:coverage
gibt 10314 Ergebnisse zurück, bei denen 700n nicht aktualisiert wurde. (Zumindest gilt dies für die 10250 Einträge, die sowohl coverage
als auch spatial
haben.) Siehe z.B. HT019830517:
JSON:
{
"coverage":[
"Horn- Bad Meinberg- Leopoldstal | 99"
],
"spatial":[
{
"focus":{
"id":"http://www.wikidata.org/entity/Q1747794",
"geo":{
"lat":51.8453,
"lon":8.97028
},
"type":[
"http://www.wikidata.org/entity/Q253019"
]
},
"id":"https://nwbib.de/spatial#Q1747794",
"type":[
"Concept"
],
"label":"Leopoldstal",
"source":{
"id":"https://nwbib.de/spatial",
"label":"Raumsystematik der Nordrhein-Westfälischen Bibliographie"
}
}
]
}
<datafield tag="700" ind1="n" ind2="1">
<subfield code="a">99</subfield>
<subfield code="b">Horn- Bad Meinberg- Leopoldstal</subfield>
</datafield>
<datafield tag="700" ind1="n" ind2="1">
<subfield code="a">613030</subfield>
</datafield>
Eine Suche in der Update-Datei ($ grep HT019830517 700n-import-20191213.txt
) ergibt kein Ergebnis.
@fsteeg hat darauf hingewiesen, dass es sich um die ZDB_Ressourcen handelt, deren Aktualisierung ja noch aussteht (#465). Filter ich die ZDB-Ressourcen raus, bleiben auch nur zwei Ressourcen übrig, siehe http://lobid.org/resources/search?q=inCollection.id%3A%22http%3A%2F%2Flobid.org%2Fresources%2FHT014176012%23%21%22+AND+_exists_%3Acoverage+AND+_exists_%3Aspatial+AND+NOT+inCollection.id%3A%22http%3A%2F%2Flobid.org%2Fresources%2FHT014846970%23%21%22
Ich schließe das Ticket jetzt mal. Für Probleme und nachzuholende (manuelle) Einspielungen machen wir neue Tickets auf (z.B. #514, #516 ).
...inklusive Propagieren in die Lokalsysteme. Siehe https://service-wiki.hbz-nrw.de/x/JAA_F
Depends on #468 .