hbz / nwbib

Die Nordrhein-Westfälische Bibliographie
http://nwbib.de
3 stars 2 forks source link

Einspielen der kontrollierten Werte in hbz01 #464

Closed acka47 closed 4 years ago

acka47 commented 5 years ago

...inklusive Propagieren in die Lokalsysteme. Siehe https://service-wiki.hbz-nrw.de/x/JAA_F

Depends on #468 .

acka47 commented 5 years ago

Wir werden zunächst eine Test-Update-Datei entsprechend dem im Wiki beschriebenen tsv-Format erstellen müssen:

HT019164048 "https://nwbib.de/spatial#n20 Ruhrgebiet", "https://nwbib.de/spatial#Q2100 Duisburg", "https://nwbib.de/spatial#Q2066 Essen", "https://nwbib.de/subjects#s768010 Einzelne Autoren 

Da lässt sich bestimmt komplett mit jq aus den JSON-Daten generieren, ist aber momentan ziemlich aufwendig, weil die URIs zusammengebaut werden müssten und die relevanten Daten verteilt in subject[].notation und spatial.id liegen. Sinnvoll ist es, die Update-Datei erst nach der Implementierung von #468 umsetzen, wenn wir die richtigen URIs in den Daten haben und uns diese leicht aus spatial[].id und subject[].id holen können.

acka47 commented 4 years ago

Die Verbundgruppe möchte diese Woche eine vollständige Datei wie hier beschrieben zum Testen:

HT019164048 "Ruhrgebiet$$0https://nwbib.de/spatial#N20", "Duisburg$$0https://nwbib.de/spatial#Q2100", "Essen$$0https://nwbib.de/spatial#Q2066", "Einzelne Autoren (Primärliteratur)$$0https://nwbib.de/subjects#N768010"
acka47 commented 4 years ago

I started playing around with a test file and jq but I am not up to the task. It looks quite good if I add indexes like this:

$ cat test.json | jq -r '.member[] | .hbzId + "\t" + .subject[0].label + "$$" + .subject[0].id + ", " + .spatial[0].label + "$$" + .spatial[0].id'

With my test file, I get something like this:

HT016313194 Einzelne Hochschullehrer und Wissenschaftler$$https://nwbib.de/subjects#N797010, Bergkamen$$https://nwbib.de/spatial#Q4192
HT019484530 Heimatvereine$$https://nwbib.de/subjects#N106000, Verlautenheide$$https://nwbib.de/spatial#Q2190271
HT016269695 Film$$https://nwbib.de/subjects#N804000, Köln$$https://nwbib.de/spatial#Q365
HT019485881 Glas$$https://nwbib.de/subjects#N849056, Hagen$$https://nwbib.de/spatial#Q2871
HT016456740 Industriebetriebe$$https://nwbib.de/subjects#N547460, Lünen$$https://nwbib.de/spatial#Q3822
HT020051058 Nottuln | Öffentliches Gebäude | Geschichte 1748-1750$$, Nottuln$$https://nwbib.de/spatial#Q14939
TT002945134 Lehnen, Maria | Ausstellung | Stuttgart <1991>$$, Lobberich$$https://nwbib.de/spatial#Q447359
TT002946550 Künstler$$https://nwbib.de/subjects#N841070, Düsseldorf$$https://nwbib.de/spatial#Q1718
TT002945584 Künstler$$https://nwbib.de/subjects#N841070, Siegburg$$https://nwbib.de/spatial#Q14870
TT002947238 Geschichte der Juden$$https://nwbib.de/subjects#N632000, Köln$$https://nwbib.de/spatial#Q365
TT002946252 Düsseldorf | Bundesgartenschau 1987$$, Düsseldorf$$https://nwbib.de/spatial#Q1718
TT002943826 Das Junge Rheinland, Künstlervereinigung | Politisches Bewusstsein | Geschichte 1919-1936 $$, Rheinland$$https://nwbib.de/spatial#N03
TT002945029 Künstler$$https://nwbib.de/subjects#N841070, Düsseldorf$$https://nwbib.de/spatial#Q1718
TT002945115 Künstler$$https://nwbib.de/subjects#N841070, Düsseldorf$$https://nwbib.de/spatial#Q1718
HT016272019 Grabmale$$https://nwbib.de/subjects#N617050, Alt-Godesberg$$https://nwbib.de/spatial#Q432917
HT020103643 $$, $$

But I don't know how to iterate over each object in the subjectandspatialarray so that I can add them to the output. Using[]will combine everylabelwith everyid` from each object in the array in the output. @fsteeg, maybe we can have a look together tomorrow...

acka47 commented 4 years ago

The last resource in the test file (HT020103643) neither has a spatial entry nor an nwbib subject. Those resources should be filtered out beforehand but we will nonetheless have resources that have only one (spatial OR nwbib subject).

acka47 commented 4 years ago

Hier die Anfrage, die wir verarbeiten müssen:

inCollection.id:"http://lobid.org/resources/HT014176012#!" AND NOT inCollection.id:"http://lobid.org/resources/HT014846970#!" AND (_exists_:spatial OR subject.source.id:"https://nwbib.de/subjects")

Das sind alle lobid-Titel, die

acka47 commented 4 years ago

I updated the test file to not include the entry without any subjects from an NWBib classification but two cover both cases where only subjects from one of the classifications exist.

fsteeg commented 4 years ago

700n-import.zip

acka47 commented 4 years ago

700n-import.zip

+1 Pack it up send it in.

acka47 commented 4 years ago

Die Verbundgruppe meldet, dass die Testlieferung ok ist. In der 48./39. KW wird das tatsächliche Update-Verfahren gestartet. Da es sich dabei um die SWIB-Woche handelt, sollten wir anfangen, die Morph entsprechend anzupassen.

acka47 commented 4 years ago

Übermorgen (Donnerstag, 5.12.) wird die Katalogisierung umgestellt, das heißt ab dann werden – mit Ausnahme der ZDB-Daten – URIs anstatt Ortsstrings katalogisiert. Dementsprechend sollten wir am Donenrstag eine neue Importdatei generieren, die dann als Basis für die hbz01-Aktualisierung dient.

fsteeg commented 4 years ago

700n-import.zip

fsteeg commented 4 years ago

Updated import file (see https://github.com/hbz/lobid-resources/issues/1018):

700n-import.zip

acka47 commented 4 years ago

Wir müssen die Werte umdrehen, die Raumsystematikeinträge sollen vor den Sachsystematikeinträgen stehen. Die Importdatei soll dafür neu generiert und bis Donnerstag an die Verbundgruppe geliefert werden.

On 10.12.19 11:20, U.P. wrote:

es scheinen ja schon Altdaten umgesetzt zu werden. Dabei ist uns aufgefallen, dass die Reihenfolge der Raumnotationen, die ja in der TA immer zuerst kommen, mit den Sachnotationen vertauscht wurden. Zumindest in hbz01 stellt sich das so dar. Das sollte eigentlich nicht sein.

fsteeg commented 4 years ago

Latest import file, with swapped spatial and subjects:

700n-import-20191212.txt.zip (based on data from 20191205)

fsteeg commented 4 years ago

And one more, with both swapped order and 319 now containing Siebengebirge/Q4236 (see #507).

700n-import-20191212-1300.txt.zip (based on data from 20191211)

fsteeg commented 4 years ago

Import file with fixed issues due to catalog changes and Siebengebirge as N23:

700n-import-20191213.txt.zip

acka47 commented 4 years ago

Es sieht so aus, als ob etwa 10k Titel nicht abgedeckt waren mit der Import-Datei. Eine Suche nach _exists_:coverage gibt 10314 Ergebnisse zurück, bei denen 700n nicht aktualisiert wurde. (Zumindest gilt dies für die 10250 Einträge, die sowohl coverage als auch spatial haben.) Siehe z.B. HT019830517:

JSON:

{
    "coverage":[
        "Horn- Bad Meinberg- Leopoldstal | 99"
    ],
    "spatial":[
        {
            "focus":{
                "id":"http://www.wikidata.org/entity/Q1747794",
                "geo":{
                    "lat":51.8453,
                    "lon":8.97028
                },
                "type":[
                    "http://www.wikidata.org/entity/Q253019"
                ]
            },
            "id":"https://nwbib.de/spatial#Q1747794",
            "type":[
                "Concept"
            ],
            "label":"Leopoldstal",
            "source":{
                "id":"https://nwbib.de/spatial",
                "label":"Raumsystematik der Nordrhein-Westfälischen Bibliographie"
            }
        }
    ]
}

Source:

<datafield tag="700" ind1="n" ind2="1">
  <subfield code="a">99</subfield>
  <subfield code="b">Horn- Bad Meinberg- Leopoldstal</subfield>
</datafield>
<datafield tag="700" ind1="n" ind2="1">
  <subfield code="a">613030</subfield>
</datafield>

Eine Suche in der Update-Datei ($ grep HT019830517 700n-import-20191213.txt) ergibt kein Ergebnis.

acka47 commented 4 years ago

@fsteeg hat darauf hingewiesen, dass es sich um die ZDB_Ressourcen handelt, deren Aktualisierung ja noch aussteht (#465). Filter ich die ZDB-Ressourcen raus, bleiben auch nur zwei Ressourcen übrig, siehe http://lobid.org/resources/search?q=inCollection.id%3A%22http%3A%2F%2Flobid.org%2Fresources%2FHT014176012%23%21%22+AND+_exists_%3Acoverage+AND+_exists_%3Aspatial+AND+NOT+inCollection.id%3A%22http%3A%2F%2Flobid.org%2Fresources%2FHT014846970%23%21%22

acka47 commented 4 years ago

Ich schließe das Ticket jetzt mal. Für Probleme und nachzuholende (manuelle) Einspielungen machen wir neue Tickets auf (z.B. #514, #516 ).