Litteraturbanken / littb-frontend

1 stars 0 forks source link

Ökad precision i Wikidataimport #55

Open jroxendal opened 1 year ago

jroxendal commented 1 year ago

Vissa författare som importeras som properties i wikidata hamnar på fel Q-nummer. Se t.ex

https://www.wikidata.org/wiki/Q6000899 avser https://libris.kb.se/53hkngnp282nhlp (skriver om hiphop) men vår författare https://litteraturbanken.se/författare/MöllerD/titlar avser https://libris.kb.se/20dgkckl01lmd80 (översättare och litteraturvetare)

detta borde dock enkelt kunna disambigueras med librisid-referensen i vår databas, se författarjson: https://litteraturbanken.se/api/get_authors?exclude=intro,db_*,doc_type,corpus,es_id,doc_id,doc_type,corpus_id,imported,updated,sources,intro_text,wikidata,dramawebben

{
"authorid": "MöllerD",
"authorid_norm": "MollerD",
"birth": {
"date": "1974",
"plain": "1974"
},
"full_name": "Daniel Möller",
"gender": "male",
"librisid": "20dgkckl01lmd80",
"name_for_index": "Möller, Daniel",
"pictureinfo": null,
"popularity": 102,
"searchable": true,
"show": true,
"surname": "Möller"
},

@salgo60

salgo60 commented 1 year ago

@jroxendal Tack missa denna jag skall kolla det. Enklast är att ni bara tar bort det i Wikidata.... jag ser bara Wikidata som ett proof of concept och att det skall ge upphov till projekt med Kunskapsgrafer som Humlab startar 2023 "Sveriges Riksdag 1867–2022: Ett ekosystem av länkad öppen data" se Wikidata koppling #84

Min tanke med WD <-> Litteraturbanken är

Change Request Litteraturbanken: Önskan visa inte Show False

En önskan jag har är att när ni har show false som jag antar innebär att ingen bok finns kopplad till personen att ni inte exponerar dom. Wikidata är extremt ostrukturerat så det finns personer som skriver botar och läser in det se exempel Mix-and-Match ---> vi får enormt med städjobb tror när Litteraturbanken var nytt städade jag bort 1000 personer.... som ramlat in i Wikidata via någon okänd bot.... nu hamnar många i Mix-and-Match innan dom har böcker se idag 712 unmatched

image

image

Önskan 2 all felrapportering sker på GITHUB

Jag hittade ett antal Show false personer som hade böcker kopplade till sig och lite andra fel idag rapporterar jag det via Twitter och #14

Önskan att all rapportering går via GITHUB även metadata fel

Fråga @jroxendal : Är det ok kan ni förankra det med "Martin" som svarar på twitter

Bra mönster ORCID

Navigera med WD och Histropedia

image %20%0A(SAMPLE(?birth_date_precision)%20AS%20?birth_date_precision)%0A(SAMPLE(?death_date)%20AS%20?death_date)%0A(SAMPLE(?death_date_precision)%20AS%20?death_date_precision)%0A(SAMPLE(?image)%20AS%20?image)%0A(COUNT(?article)%20AS%20?rank)%0A?Filter%0A?Litteraturbanken%0AWHERE%20%7B%0A%20%20?person%20wdt:P5101%20?Littid.%0A%20%20?person%20wdt:P27%20wd:Q34.%0A%20%20OPTIONAL%20%7B?person%20wdt:P3217%20?SBLID%7D%0A%0ABIND(IF(BOUND(?SBLID),%20%22Litteraturbanken%20kopplad%20till%20SBL%22,%22ej%20hos%20SBL%22)%20AS%20?Filter%20)%0A%0A%20OPTIONAL%20%7B%20?person%20wdt:P18%20?image.%20%7D%0A%20BIND(URI(CONCAT(%22https://litteraturbanken.se/f%25C3%25B6rfattare/%22,?Littid))%20AS%20?Litteraturbanken)%0A%20%20%20?person%20p:P569/psv:P569%20?birth_date_node%20.%0A%20%20?birth_date_node%20wikibase:timeValue%20?birth_date.%20%23this%20is%20now%20the%20actual%20birth%20date%0A%20%20?birth_date_node%20wikibase:timePrecision%20?birth_date_precision.%0A%0AOPTIONAL%20%7B%0A%20%20%20%20?person%20p:P570/psv:P570%20?death_date_node.%0A%20%20%20%20?death_date_node%20wikibase:timeValue%20?death_date%20.%20%23this%20is%20now%20the%20actual%20birth%20date%0A%20%20%20%20?death_date_node%20wikibase:timePrecision%20?death_date_precision.%0A%7D%0A%0AOPTIONAL%20%7B?article%20schema:about%20?person.%20%7D%0A%0ASERVICE%20wikibase:label%20%7B%20bd:serviceParam%20wikibase:language%20%22sv%22,%22en%22.%20%7D%0A%7D%0AGROUP%20BY%20?person%20?personLabel%20?Filter%20?Litteraturbanken%0A%0AORDER%20BY%20DESC(?rank)&md=true&g=person&l=Litteraturbanken&t=personLabel&s=birth_date&sp=birth_date_precision&e=death_date&ep=death_date_precision&i=image&r=rank&d=0&c=Filter&f=Filter&v=t)

image%20%20(sample(?bild)%20AS%20?bild)%20%0A?birth%20?death%20?partyLabel%20WHERE%20%7B%0A%0A%20%20VALUES%20?member%20%7B%0A%20%20%20%20wd:Q33071890%20%0A%20%20%20%20wd:Q81531912%20%0A%20%20%20%20wd:Q82697153%20%0A%20%20%20%20wd:Q10655178%20%0A%20%20%7D%0A%20%20?person%20wdt:P39%20?member.%0A%20%20OPTIONAL%7B?person%20wdt:P102%20?party%7D%0A%20%20OPTIONAL%7B?person%20wdt:P569%20?birth%7D%0A%20%20OPTIONAL%7B?person%20wdt:P570%20?death%7D%0A%0A%20%20OPTIONAL%20%7B?person%20wdt:P18%20?bild%7D%0A%20%20?person%20wdt:P5101%20?Littid.%0A%20%20BIND(URI(CONCAT(%22https://litteraturbanken.se/f%25C3%25B6rfattare/%22,?Littid))%20AS%20?Litteraturbanken)%0A%0A%20%20SERVICE%20wikibase:label%20%7B%20bd:serviceParam%20wikibase:language%20%22sv,en%22.%20%7D%0A%7D%20GROUP%20BY%20%20?person%20?personLabel%20%20?death%20?birth%20?partyLabel%0Aorder%20by%20?partyLabel&d=0&md=true&g=article&l=Litteraturbanken&t=personLabel&s=birth&e=death&i=bild&c=partyLabel&f=partyLabel&v=t)

Uppkallad efter person i Litteraturbanken

image

image

Beskriven av

I Wikidata börjar vi nu ange under Beskriven av P1243 en källa som beskriver objektet se SPARQL källor som beskriver objekt kopplade till Litteraturbanken författare / tabell

image

salgo60 commented 1 year ago

@jroxendal Jag skapade en Notebook som kollar LIBRIS-URI i WD med Litteraturbankens librisid / tweet till dina kollegor om att vi skriver här

Date A: Litteraturbanken show H: Littbank - LibrisXL I: WD - Littbank - LIBRISXL
20230304 3719 2212 2715

image

/Magnus tel: 0735152802 email: salgo60@msn.com twitter: salgo60

salgo60 commented 1 year ago

Diff found after corrections Notebook

  1. some records at Litteraturbanken use the old libris id e.g. BrausewetterE I think we just should use the new one.
    • I have tried to report to VIAF and LIBRISXL that they have a design debt mixing them see T223259
  2. 403 records in Litteraturbanken has empty librisid where WIkidata has an candidate see notebook and csv file CandidatesLittarurbankenLIBRISXL.csv / raw
  3. HenriksonA has the # tag
  4. CarlssonGottfrid feels like the wrong value = 22551370
  5. potential duplicates
    1. LIBRISXL SPARQL - should maybe be reported to LIBRISXL....
    2. Litteraturbanken SPARQL

Tabell med udda poster som behöver åtgärdas

se vidare CandidatesLittarurbankenLIBRISXL.csv for poster där Wikidata har LIBRISXL kandidat

Nr Wikidata Litteraturbanken authorid WD SELIBR_ID WD librisid Litteraturbanken libris
300 Q124497 BrausewetterE gdsvxxs0435cbmd 241920 241920
362 Q5603107 CarlssonGottfrid 75kmmf5r0wfckc4 180383 22551370
399 Q110761155 ChytræusB 53hkddzp5558v77 46161 64jlff0q2s2gmmp
555 Q5713067 EngströmJ 64jmq7fq5h2jspj 51784 ljx0t1n43wdl7vm
556 Q5713067 EngströmJ 64jmq7fq5h2jspj 284152 ljx0t1n43wdl7vm
567 Q5800077 EricusErici qn246mj85n434kz 226148 226148
623 Q99963520 ForsJJ 64jlp9rq25gk99r 258352 258352
662 Q5746194 FryxellF 0xbdg2gj3wj5xn5 231256 wt79czcf50q5p22
697 Q99964076 GlaserP wt79ds3f3m7m66x 253513 253513
834 Q4542909 HenriksonA 64jlmsqq3k2tkg7 190822 64jlmsqq3k2tkg7#it
961 Q6000244 JohanMånsson 53hkn8qp4kxmqck 258351 258351
1125 Q5940195 LaureliusO pm1358d72z3qkfr 217057 217057
1279 Q99965548 LundinA khwztrz323ht5kd 72783 72783
1324 Q5974992 MannerfeltO 97mqvpkt2mgmqrr 321085 321085
1387 Q41406 MunchE 53hkld1p1hbsskz 208221 208221
1410 Q64025337 NathorstA vs68cp7d036k6vf 251862 251862
1508 Q382714 OlssonAnders sq46759b3mxspkl 212861 tr5787vc2sm1pgz
1509 Q382714 OlssonAnders sq46759b3mxspkl 212380 tr5787vc2sm1pgz
1611 Q6066002 ReenhielmJ 1zcfjxxk55m0gzc 253247 253247
1667 Q6082497 RudbeckiusPJyngre 75kmp35r521gcmk 225383 226309
1794 Q331173 SiwertzS 53hkmp4p441gsh7 216411 216411
2000 Q1039042 TornbergCJ qn2595h850wr0xq 321518 321518

Tabell med > 400 poster där Litteraturbanken saknar LIBRISXL men Wikidata har kandidat

se Notebook 20230304

image

salgo60 commented 1 year ago

FryxellF har fått felkoppling till Wikidpedia

image

salgo60 commented 1 year ago

Kommunicera samma som kanske Litteraturbanken skall ha andra än LIBRISXL

Min bild av LIBRISXL är att dom borde ha alla författare som Litteraturbanken scannar in...

image

==>

Authoritativeness is (Mostly) a Myth

Intressant reflektion att oldschools aktörer som VIAF, LIBRIS, Riksarkivet, RAÄ är mindre viktiga idag om dom inte hänger med och levererar data utan har dålig kvalitet PLUS särskilt om dom inte uppfyller min lista The Magnus list

image image

Försök med Riksarkivet att ha Things not strings

salgo60 commented 1 year ago

OT Notebook som checkar om bilder finns i Svenskt Porträttarkiv där WD saknar bilder

image

image

lb-martin commented 1 year ago

Hej @salgo60! Jag ber om ursäkt för den sena återkopplingen. Jag är alltså den Martin som brukar svara dig på Twitter. När det gäller felaktigheter i metadata och databasfiler kan du pinga mig på GitHub framöver! (Jag är ingen GitHub-guru, men det ger väl med sig med tiden.)