linked-swissbib / mfWorkflows

linked-swissbib workflows based on Metafacture
1 stars 0 forks source link

MARC-Felder mit ungültigem Inhalt? #15

Open sschuepbach opened 8 years ago

sschuepbach commented 8 years ago

Hallo Nicolas

@fxbensmann hat bei einer Transformation bemerkt, dass gewisse URI in unserem aktuellen Workflow falsch generiert werden (s. u). Soweit ich das sehe, tritt das Problem an zwei Stellen auf:

Beim ersten Fall bin ich nicht sicher, ob es sich um einen Fehler in der Morph-Definition handelt - Whitespaces müssten dann immer durch valide URI-Zeichen ersetzt werden - oder um eine fehlerhafte Katalogisierung - Strings wie Academiae Scientiarum Rei Publicae Democraticae Germanicae dürften also im entsprechenden MARC-Feld gar nicht vorkommen. Kannst du mir da weiterhelfen? Der zweite Fall scheint ähnlich gelagert zu sein. Im Feld 949 .E gibt es offenbar zuweilen Strings, die mehr enthalten als nur die Systemnummer (bspw.: R003560922 (Bd. 1)). Auch hier die Frage: Müsste in unseren Metamorph-Definitionen ein Filter eingebaut werden, der solche zusätzlichen Tokens filtert, oder handelt es sich grundsätzlich um ungültige Strings, die ignoriert werden sollten?

Dropped statement (http://data.swissbib.ch/resource/315108592, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4116635-8655 7) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/139248331, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4027107-9Academiae Scientiarum Rei Publicae Democraticae Germanicae) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/325525811, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4126697-3Miniature monuments) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/316548391, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4054780-2650 7) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/item/RERO-2db21b3b-5c52-3fb5-918d-c960d79aa837, http://xmlns.com/foaf/0.1/page, http://opac.rero.ch/gateway?beginsrch=1&lng=en&inst=1&search=KEYWORD&function=INITREQ&fltset=submsn&t1=R007570620 (vol. 1)&u1=12&floc=010400000) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/331164167, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4142019-6650 7) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/316742724, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/ 4122189-8) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/294939008, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4187060-8ZB (Z??rich)) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/item/RERO-9de54b76-099d-34fc-bbfb-2c3bcf953f61, http://xmlns.com/foaf/0.1/page, http://opac.rero.ch/gateway?beginsrch=1&lng=en&inst=31&search=KEYWORD&function=INITREQ&fltset=submsn&t1=R003362972 (vol. 1)&u1=12&floc=310110000) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/item/RERO-4952bbef-77ce-3deb-99ed-732b37f44c86, http://xmlns.com/foaf/0.1/page, http://opac.rero.ch/gateway?beginsrch=1&lng=en&inst=11&search=KEYWORD&function=INITREQ&fltset=submsn&t1=R003560922 (Bd. 1)&u1=12&floc=110010000) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/item/RERO-3973071d-df6b-34e4-906b-00c2fc11d0c6, http://xmlns.com/foaf/0.1/page, http://opac.rero.ch/gateway?beginsrch=1&lng=en&inst=81&search=KEYWORD&function=INITREQ&fltset=submsn&t1=R003702948 (pbk.)&u1=12&floc=810820000) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/item/RERO-aba1981c-8482-311b-8a78-9081e27e1a00, http://xmlns.com/foaf/0.1/page, http://opac.rero.ch/gateway?beginsrch=1&lng=en&inst=1&search=KEYWORD&function=INITREQ&fltset=submsn&t1=R005680360 (Projekt Zusammen leben  Sachunterricht/Mensch, Natur und Kultur)&u1=12&floc=010970000) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/item/RERO-f1eecd25-fb38-3484-ba51-005605c62c62, http://xmlns.com/foaf/0.1/page, http://opac.rero.ch/gateway?beginsrch=1&lng=en&inst=1&search=KEYWORD&function=INITREQ&fltset=submsn&t1=R263360260 (Suppl. 1)&u1=12&floc=010010000) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/109531140, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4074725-6 t) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/313864500, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4078435-6650 7) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/308157338, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4023606-7655 7) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/item/RERO-f2202207-97f9-3ec4-9261-faad0d801f73, http://xmlns.com/foaf/0.1/page, http://opac.rero.ch/gateway?beginsrch=1&lng=en&inst=61&search=KEYWORD&function=INITREQ&fltset=submsn&t1=R003884604 (hbk.)&u1=12&floc=610700000) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/304820903, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4000464-8650 7) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/329859838, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4028779-8Online-Publikation -- gnd) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/308006712, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4066438-7liche l) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/329604422, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4020310-Masseinheit (Motiv) | (DE-588c)4725413-04) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/330498614, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4043886-7010379162 010379162) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/330499424, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4043886-7010379162 010379162) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/330504290, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4043886-7010379162 010379162) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/330504576, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4043886-7010379162 010379162) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/331505894, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4246440-7Aletsch [Kartenmaterial] : Winter 2013 : [Vogelschaukarte] / [gemalt von Winfried Kettler?] ; [Hrsg.:] Wallisg
Dropped statement (http://data.swissbib.ch/resource/331514885, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4246440-7Aletsch [Kartenmaterial] : Winter 2013 : [Vogelschaukarte] / [gemalt von Winfried Kettler?] ; [Hrsg.:] Wallisg
Dropped statement (http://data.swissbib.ch/resource/282480978, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/ 3474-1) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/item/RERO-7357c5eb-d248-3c4e-8330-6720c03d28c9, http://xmlns.com/foaf/0.1/page, http://opac.rero.ch/gateway?beginsrch=1&lng=en&inst=11&search=KEYWORD&function=INITREQ&fltset=submsn&t1=R007255446 (livre)&u1=12&floc=110310000) due to invalid format in resource object
Dropped statement (http://data.swissbib.ch/resource/325350590, http://purl.org/dc/terms/subject, http://d-nb.info/gnd/4308421-7Geschichte 1150-1200 [Zeitraster]) due to invalid format in resource object
pronguen commented 8 years ago

Hallo Sebastian,

Ich habe zuerst das Problem der Generierung der subject-URI analysiert.

SUBJECT-URI

Ich habe drei Problemarten identifiziert (siehe auch die angehängte Datei):

Bemerkungen:

Schluss

ITEM-LINK

Die 8 Beispiele mit fehlerhaften Item-Links, die Du geschickt hast, stammen aus RERO. In den Swissbib MARC/XML-Daten existiert das Feld 035 zweimal: einmal mit dem ungewünschten String (z.B. "(RERO)R003560922(Bd.1)") und einmal ohne ("(RERO)R003560922")! In den Ursprungsdaten (bei RERO) sind die Daten jedoch richtig, mit einem einzigen 035 Feld. Beispiele:

Schluss

sschuepbach commented 8 years ago

Hallo Nicolas

Vielen Dank für deine Analyse! Ich öffne mit @guenterh und @witzigs den Kreis ein wenig, da das Problem ja offensichtlich nicht auf linked-swissbib beschränkt ist. Vielleicht können sie aus dem Standpunkt swissbib zur Diskussion beitragen.

Dein Vorschlag eines erweiterten Regex-Filter finde ich sinnvoll, da so der grösste Teil der (momentanen) Problemfälle - subject-URI-Generierung des "Typs B" - behoben werden kann. Ich werde ihn gemäss deinem Vorschlag in unsere Morph-Definition integrieren und testen, inwiefern er dereferenzierbare GND-Uri erzeugen kann.