swissbib / vufind

A library resource discovery portal designed and developed for libraries by libraries
GNU General Public License v2.0
12 stars 7 forks source link

Problem with the linked workflow for organisations #681

Closed liowalter closed 5 years ago

liowalter commented 5 years ago

There is a strange list of authors for this record : https://www.swissbib.ch/Record/551125802

screenshot_300

Is it a problem with the linked workflow ?

Elastic search query :

GET lsb_181213/bibliographicResource/551125802

{
  "_index": "lsb_181213",
  "_type": "bibliographicResource",
  "_id": "551125802",
  "_version": 1,
  "found": true,
  "_source": {
    "@type": "http://purl.org/dc/terms/BibliographicResource",
    "@context": "https://resources.swissbib.ch/bibliographicResource/context.jsonld",
    "@id": "https://data.swissbib.ch/bibliographicResource/551125802",
    "rdfs:isDefinedBy": "https://data.swissbib.ch/bibliographicResource/551125802/about",
    "dct:language": "http://lexvo.org/id/iso639-3/fra",
    "rdau:P60163": "http://sws.geonames.org/2658434/",
    "dct:contributor": [
      "https://data.swissbib.ch/organisation/d41d8cd9-8f00-3204-a980-0998ecf8427e",
      "https://data.swissbib.ch/person/379eef8f-5090-3bdb-be26-801ee228dfc5",
      "https://data.swissbib.ch/organisation/935cab79-1465-36c7-8ac7-4c61c2ee26e1"
    ],
    "rdau:P60339": "[graphisme et illustration",
    "rdau:P60333": "[Genève] : Lied et Mélodie, 2018",
    "dc:format": "1 affiche ; 128 x 90 cm",
    "rdau:P60049": "http://rdvocab.info/termList/RDAContentType/1014",
    "rdau:P60050": "http://rdvocab.info/termList/RDAMediaType/1007",
    "dct:issued": "2018",
    "dct:title": "Récital Schumann et Brahms, Benoît Capt baryton, Eric Schneider piano, Liederkreis opus 39, ausgewählte Lieder, Vier ernste Gesänge, L&M, Lied et Mélodie, présentation des oeuvres par Géraldine Cloux, Genève, Palais de l'Athénée, Salle des Abeilles, lundi 9 et mardi 10 avril 2018 : sandytripet.com]"
  }
}

GET lsb_181213/organisation/d41d8cd9-8f00-3204-a980-0998ecf8427e

{
  "_index": "lsb_181213",
  "_type": "organisation",
  "_id": "d41d8cd9-8f00-3204-a980-0998ecf8427e",
  "_version": 1,
  "found": true,
  "_source": {
    "@id": "https://data.swissbib.ch/organisation/d41d8cd9-8f00-3204-a980-0998ecf8427e",
    "@type": "http://xmlns.com/foaf/0.1/Organization",
    "rdf:type": "http://xmlns.com/foaf/0.1/Organization",
    "@context": "https://resources.swissbib.ch/organisation/context.jsonld",
    "rdfs:label": [
      "\"Anthropométrie, Ant 199\"",
      "\"Schulen und Gesundheit\" (Programm)",
      "&Söhne (Zürich)",
      "'After Timur Came: Multiple Spaces of Cultural Production and Circulation in Fifteenth-Century North India' (Conference)",
      "003 Konzepte (Luzern)",
      "11mm Independent Graphic Designer (Culver City)",
      "13ème Etage (Carouge)",
      "31Nord (Zürich)",
      "3Dtotal.com (Firm) Staff",
      "3pc Neue Kommunikation (Berlin)",
      "4 Corners",
      "42 Decibel",
      "4d Landschaftsarchitekten",
      "4hero",
      "50 JahreAlfred Metzner Verlag",
      "6. Akademie-Forum",
      "6net (Project)",
      "9.6 Konzeptionelle Welten (Basel)",
      "A Marti und Cie (Bern)",
      "A Trüb & Cie",
      "A few good men",
      "A tribe called Quest",
      "A und O-International (Basel)",
      "A. Benteli (Bern)",
      "A. Biland",
      "A. Hofmann & Comp",
      "A. Marti und Cie (Bern)",
      "A. Noverraz (Genève)",
      "A. Salvioni & Co. SA (Bellinzona)",
      "A. Schellenbaum und Co AG (Winterthur)",
      "A. Teichmann",
      "A.C. Nielsen Company",
      "A.T.A",
      "A3 studio",
      "A4 Agentur für Werbung & Grafik (Risch)",
      "AA Actual Pub (Onex)",
      "AA Publishing Staff",
      "AACC Staff",
      "ABA Consortium for Professional Education",
      "ABBA",
      "ABC Publi Conseil (Genève)",
      "ABDATA Pharma-Daten-Service (Eschborn/Taunus)",
      "AC DC",
      "AC/DC",
      "ACAM Press Staff",
      "ACISSI",
      "ACM International, Inc. Staff",
      "ACM Press Staff",
      "ACM SIGCHI Staff",
      "ACM SIGPLAN Conference on Programming Language Design and Implementation Staff",
      "ACM Staff",
      "ACerS",
      "ADAC",
      "ADB Institute",
      "ADEV-Solarstrom (Liestal)",
      "ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V",
      "ADN Concept (Meyrin)",
      "AFCEA Intelligence Committee",
      "AFIPS Staff",
      "AFOS",
      "AG Egal Idée",
      "AG Hunziker & Cie",
      "AG Kraftwerk Wäggital (Siebnen)",
      "AG Ziegelwerke Horw-Gettnau (Gettnau)",
      "AG des Berner Tagblatts",
      "AGA (Annemasse)",
      "AGE Platform Europe",
      "AGIE",
      "AHA Marketing Kommunikation (Binningen)",
      ...
    ]
  }
}
liowalter commented 5 years ago

Same here https://www.swissbib.ch/Record/551315296

guenterh commented 5 years ago

@liowalter @sschuepbach Danke für die Info Lionel. Ich werde versuchen, mir das möglichst bald anzusehen, vielleicht im Kontext der Datenschnittstelle, obwohl das unterschiedliche Themen sind. Gut, dass wir überhaupt mehr in die Daten schauen - und uns damit vor allem mehr beschäftigen.

guenterh commented 5 years ago

@liowalter @sschuepbach https://www.swissbib.ch/Record/551315296 https://www.swissbib.ch/Record/551125802

in 90.244 Dokumenten ist diese Person (https://data.swissbib.ch/organisation/d41d8cd9-8f00-3204-a980-0998ecf8427e) als contributor referenziert. Vergleiche auch: https://data.swissbib.ch/bibliographicResource?q=https%3A%2F%2Fdata.swissbib.ch%2Forganisation%2Fd41d8cd9-8f00-3204-a980-0998ecf8427e Das kann kaum möglich sein.

das Problem tritt bei rdfs:label auf

Frage: Warum wird der Hashwert als ID so oft generiert. Ich schaue es mir an

guenterh commented 5 years ago

wo finden sich die bibliographischen Rohdaten:

guenterh commented 5 years ago

@liowalter @witzigs Der Grund für den gleichen Hashwert bei so vielen Dokumenten: die Werte, welche wir für diesen konkreten Fall berücksichtigen, sind alle nicht gesetzt empty_values_for_hashes

Das ist ein Bug in der Hashgenerierung. Für solche Fälle, so meine Erinnerung, wollten wir eigentlich den Titel berücksichtigen. Grundsätzlich: Ich bin mit den Hashwerten als Personenidentifier grundsätzlich nicht sehr glücklich. Schon vor langer Zeit hatten wir die Idee, für die bereits mit einer GND Nummer identifizierten Subjekte, diese GND auch zu verwenden (das Schema sah dann so aus: data.swissbib.ch/person/[gndid] oder data.swissbib.ch/person/gnd/[gndid] Über die Vor und Nachteile (oder weitere Varianten) sollten wir noch diskutieren. Hauptgrund, warum wir die Umstellung damals nicht gemacht haben: Unser workflow war nicht stabil genug und ich wollte nicht an zu vielen Stellen gleichzeitig drehen.

Jetzt sieht es ein bisschen anders aus: @sschuepbach hat auf MF5 umgestellt. Die MF-commands sind modularisiert (aber noch nicht produktiv @sschuepbach: Der namespace von Metamorph Funktionen (zur Haswert Generierung) hat sich geändert, ich denke Du hast die Morphs schon angepasst?)

Ich schlage vor, dass ich für die bald anstehende Neuindexierung einen schnellen patch schreibe (nich nicht mit den modularisierten commands). Dann sollte der Fehler mehrheitloch weg sein, bzw man kann dann leichter herausfinden, welche bibliograpische Aufnahme das Durcheinander in rdfs:label verursacht (jetzt kann es potentiell eines der 90.000 Doks sein.)

Zusammen mit Sebastian versuche ich, nach seinen Ferien, eine neue Form von Identifier für Personen zu implementieren. Was denkt Ihr?

guenterh commented 5 years ago

@Kordishal z.I

guenterh commented 5 years ago

@liowalter fyi Ursache des Problems: Die Reihenfloge der Attribute, die von der Morphdefinition an den author-hash-generator übergeben wird, war nicht korrekt. https://github.com/linked-swissbib/mfWorkflows/commit/5b7cf09271423f8e195e043a4b14dd75cd6a1524 Danke an @witzigs für den schnellen Blick und die tatkräftige Unterstützung! @sschuepbach Ich habe das angepasste Morph jetzt "per Hand" auf sb-ls1 kopiert sb-ls1:/usr/local/swissbib/mfWorkflows/transformation/indexWorkflows/morphModules Auf sb-ls1 lassen wir ja noch MF4 laufen und lokal nutze ich bereits MF5. Dann stimmen die namespaces nicht mehr. Vielleicht können wir uns nach Deinen Ferien einen Plan machen, wie wir updaten wollen?

guenterh commented 5 years ago

@liowalter @witzigs @sschuepbach der linked index ist nun auch mit dem neuen Export aufgebaut. Ich habe ihn gerade produktiv gesetzt (alias getauscht) Der Fehler in https://www.swissbib.ch/Record/551125802 tritt nun nicht mehr auf