Open lvg42 opened 10 years ago
@lvg42 Vielen Dank für den Vorschlag, das sieht vielversprechend aus. Wer hätte denn die Autorität darüber ob ein geharvester Datensatz auf metadata_transformer = author
und nicht metadata_transformer = harvester
gestezt wird?
Wir in Ö haben das dadurch gelöst, dass die eindeutige ID des originären Systems immer mitübernommen werden muss. Indem die Daten digital sind, unterscheiden wir damit effektiv nicht zwischen Kopie und original. Dubletten gibt es damit nicht. Ich hoffe ich habe die Diskussion so richtig verstanden ....
@the42 Dieses Feld existiert bereits in unserem Schema: metadata_original_id
. Das Problem ist nur, siehe Beispiel oben, wenn es einen weiteren Datenaggregator gibt (geportal.de). Beide Portale, geoportal.de und opendata.bayern.de haben nun einen Datensatz der dieselbe metadata_original_id
hat.
Bei GovData.de steht dann aus, soll nun der Datensatz von Portal A oder Portal B bevorzugt werden?
Klar, dass ist ein Problem. Eventuell per timestamp überprüfen, welcher der beiden der "jüngere" ist, oder eine Präferenz kodieren.
In diesem Fall existieren zwei unterschiedliche Transformationen (Umformung der Metadaten zwischen unterschiedlichen Metadatenmodellen):
Transformation A
Transformation B
Beide Transformationen liefern unterschiedliche Ergebnisse und somit keine "Kopien".
Die Transformation zwischen den bayerischen Portalen ist speziell auf das bayerische ISO 19139 Profil abgestimmt und somit detailreicher. Aus diesem Grund habe ich die Einführung der Enum metadata_transformer
vorgeschlagen, um die Präferenz steuern zu können.
Regeln:
metadata_original_id
erkannt.metadata_transformer
ist vorhanden und hat den Wert author
.Viele Grüße Jürgen Weichand
@lvg42 Danke für die Klärung Herr Weichand. Mir ist erst durch ihre Erklärung klar geworden, dass es sich nicht um Kopien handelt durch die unterschiedliche Abbildung des Metadatenformats CSW nach CKAN. Das Hinzufügen eines solchen Feldes wird in der nächsten Datenbereitstellerkonferenz besprochen.
Dubletten von transformierten Metadaten werden über die 'metadata_original_id' identifiziert. In diesem Fall werden durch den Autor ('author') bereitgestellte Metadaten bevorzugt.
Siehe Screenshot.
Viele Grüße
Jürgen Weichand