pangaea-data-publisher / fuji

FAIRsFAIR Research Data Object Assessment Service
MIT License
52 stars 38 forks source link

ACTION 5 - check the rdfa parsing in fair_check.py #80

Closed huberrob closed 3 years ago

huberrob commented 3 years ago

(Dataset 92) http://fel.hi.is/ISKOS1983

rdfa is detected by F-UJI, it seems like the information included is not about data (see figure and code snippet below) ACTION 5 - check the rdfa parsing in fair_check.py.

Capture

[{'@id': '/fotur_2', '@type': ['http://rdfs.org/sioc/ns#Item', 'http://xmlns.com/foaf/0.1/Document'], 'content:encoded': [{'@value': 'Hafðu samband\n\n\t\tSími: 525 4545\n\n\t\tNetfang: felagsvisindastofnun@hi.is\n'}], 'http://purl.org/dc/terms/title': [{'@value': 'Fótur 2'}]}, {'@id': '/fotur_4', '@type': ['http://rdfs.org/sioc/ns#Item', 'http://xmlns.com/foaf/0.1/Document'], 'content:encoded': [{'@value': 'Samfélagsmiðlar\nFélagsvísindastofnun á Facebook\nHáskóli Íslands á Twitter\nRSS veita HÍ\n'}], 'http://purl.org/dc/terms/title': [{'@value': 'Fótur 4'}]}, {'@id': '/fotur_3', '@type': ['http://rdfs.org/sioc/ns#Item', 'http://xmlns.com/foaf/0.1/Document'], 'content:encoded': [{'@value': 'Opnunartímar bygginga\nAðalbygging 07:30-17:00\nHáskólatorg 07:30-22:00\nAllir opnunartímar\n'}], 'http://purl.org/dc/terms/title': [{'@value': 'Fótur 3'}]}, {'@id': '/fotur_1', '@type': ['http://xmlns.com/foaf/0.1/Document', 'http://rdfs.org/sioc/ns#Item'], 'content:encoded': [{'@value': 'Félagsvísindastofnun \xa0\n\n\t\tGimli - Sæmundargötu 10\xa0\n\n\t\t102 Reykjavík\n\n\t\tKt. 600169-2039\n\n\t\tHér erum við\n\n\t\tOpið: 9:00-16:00\n'}], 'http://purl.org/dc/terms/title': [{'@value': 'Fótur 1'}]}, {'@id': '/ISKOS1983', '@type': ['http://xmlns.com/foaf/0.1/Document'], 'content:encoded': [{'@value': 'Gagnaskrá og tilheyrandi skjöl eru að finna hér að neðan. Að auki er hlekkur á gagnvirka greiningu á netinu, í NESSTAR WebView, þar sem auðvelt er að skoða lýsandi tölfræði o.fl.\n\n\t\t\t\t\xa0\n\n\t\t\t\t\xa0\n\n\t\t\t\tDOI númer\n\n\t\t\t\t10.34881/1.00001\n\n\t\t\t\tÚtgáfa gagnaskrár\n\n\t\t\t\t3.0.0\n\n\t\t\t\tHöfundur/höfundar\n\n\n\t\t\t\t\t\tHarðarson, Ólafur Þórður (Stjórnmálafræðideild, Háskóli Íslands)\n\n\t\t\t\t\t\tFélagsvísindastofnun, Háskóli Íslands\n\n\n\t\t\t\tÚtgáfudagur\n\n\t\t\t\t2013-09-10\n\n\t\t\t\tUmsjón gagnasöfnunar\n\n\t\t\t\tFélagsvísindastofnun, Háskóli Íslands\xa0\n\n\t\t\t\tFjármögnun\n\n\n\t\t\t\t\t\tRannsóknasjóður Íslands (Icelandic Research Fund; RANNÍS)\n\n\t\t\t\t\t\tRannsóknasjóður Háskóla Íslands (University of Iceland Research Fund)\n\n\t\t\t\t\t\tÖryggismálanefnd (Icelandic Commission on Security and International Affairs)\n\n\t\t\t\t\t\tNordic cooperation committee for research on international relations (NORDSAM)\n\n\n\t\t\t\tLýsing\n\n\t\t\t\tÍslenska kosningarannsóknin er viðamikil rannsókn þar sem lagðar eru fyrir spurningar um kosninga- og stjórnmálahegðun íslenskra kjósenda. Meðal rannsóknarefna eru til dæmis kosningahegðun, afstaða kjósenda til stjórnmálaflokka, afstaða til lýðræðis, hvað kjósendur telja vera mikilvægustu verkefnin á vettvangi stjórnmála, þátttöku þeirra í prófkjörum og margvísleg önnur málefni á vettvangi stjórnmála. Íslenska kosningarannsóknin er hluti af Nordic Electoral Democracy (NED) sem er norrænt samstarf um lýðræði og kosningar; Comparative Studies of Electoral Systems (CSES) og True European Voter (TEV) sem eru hvoru tveggja alþjóðalegt samstarf um kosningarannsóknir.\n\n\t\t\t\tTímabil gagnasöfnunar\n\n\t\t\t\t1983-05-13 / 1983-09-21\n\n\t\t\t\tLandssvæði\n\n\t\t\t\tIceland (IS)\n\n\t\t\t\tAðferð við úrtaksgerð\n\n\t\t\t\tÚr þjóðskrá var dregið einfalt líkindaúrtak einstaklinga á aldrinum 18 til 80 ára. Stærð úrtaks var 1.400 manns. Brúttósvarhlutfall var 71,6% og nettósvarhlutfall var 79,1%.\n\n\t\t\t\tRannsóknarsnið\n\n\t\t\t\tLongitudinal: Trend/Repeated cross-section\n\n\t\t\t\tForm gagnaöflunar\n\n\n\t\t\t\t\t\tSímakönnun (í kjölfar kosninga).\n\n\t\t\t\t\t\tViðtalskönnun (í kjölfar kosninga).\n\n\t\t\t\t\t\tPóstkönnun (í kjölfar kosninga).\n\n\n\t\t\t\tUpplýsingar um gagnaskrá\n\n\n\t\t\t\t\t\tUnit Type: Individual\n\n\t\t\t\t\t\tNumber of Units: 1003\n\n\t\t\t\t\t\tNumber of Variables: 98\n\n\t\t\t\t\t\tType of Data: Survey data\n\n\t\t\t\t\t\tFile Name: icenes_1983_opin_adgangur_islenska_3utg.sav\n\n\t\t\t\t\t\tFile Format: SPSS (Icelandic)\n\n\t\t\t\t\t\tFile Size: 183 KB\n\n\n\t\t\t\tAthugasemdir\n\n\t\t\t\tGagnaskrá er til á íslensku og ensku.\n\n\t\t\t\tAðgangur\n\n\t\t\t\tOpinn aðgangur\n\n\t\t\t\tAfnotaleyfi\n\n\t\t\t\tCC BY-NC 4.0\n\n\t\n\tGagnaskrá og skjöl:\nGagnaskrá (SPSS, íslenska)\nUpplýsingar um úrtak og framkvæmd\nSpurningalisti\nKóðunarbók\n Athugið að styðjast við kóðunarbókina þegar unnið er með gagnaskrána.\n\n\tGagnvirk greining á netinu:\nÍslenska kosningarannsóknin 1983 í NESSTAR WebView\n\n<!--/--><![CDATA[/ ><!--/\n\n.table-stribed td{\n border-bottom: 1px solid #AAAAAA !important;\n}\ntable.table.table-striped tr td {\n vertical-align: top;\n}\ntable.table.table-striped {\n border: none;\n}\n.table-striped tr {\n border-bottom: 1px solid #dddddd;\n}\ntable.table.table-striped tr:nth-child(even) {\n background-color: #f9f9f9;\n}\t\n/--><!]]>/\n\n<![CDATA[/ ><!--/\n\n.table-stribed td{\n border-bottom: 1px solid #AAAAAA !important;\n}\ntable.table.table-striped tr td {\n vertical-align: top;\n}\ntable.table.table-striped {\n border: none;\n}\n.table-striped tr {\n border-bottom: 1px solid #dddddd;\n}\ntable.table.table-striped tr:nth-child(even) {\n background-color: #f9f9f9;\n}\ntable.table.table-striped {\n font-size: 12px;\n}\t\n/--><!]]>/\n\n'}]}]

Google test (rich results test)

image

huberrob commented 3 years ago

I cannot reproduce the first output above @kitchenprinzessin3880 where does it come from? I mean the json starting with : [{'@id': '/fotur_2', '@type': ['http://rdfs.org/sioc/ns#Item', 'http://xmlns.com/foaf/0.1/Document'], 'content:encoded': [{'@value': 'Hafðu samband\n\n\t\tSími: 525 4545\n\n\t\tNetfang: felagsvisindastofnun@hi.is\n'}], 'http://purl.org/dc/ter...

kitchenprinzessin3880 commented 3 years ago

This is from extruct dict.

huberrob commented 3 years ago

Extruct is very unreliable here. F-UJI now uses rdflib which correctly identifies RDFa data.