salgo60 / Wikidata_riksdagen-corpus

repository for matching Wikidata with riksdagen-corpus
MIT License
12 stars 1 forks source link

Riksdagensdata: Dubbletter i wikidata. #51

Open salgo60 opened 1 year ago

salgo60 commented 1 year ago

_Originally posted by @SchermanJ in https://github.com/salgo60/Wikidata_riksdagen-corpus/issues/50#issuecomment-1267376224_

Funderar om detta bara är fel på importen, men här kommer några dubbletter jag upptäckt på wikidata.

Motion till riksdagen 2021/22:3779 av Johan Forssell m.fl. (M)

Korrekt: https://www.wikidata.org/wiki/Q110533584 Inkorrekt dublett: https://www.wikidata.org/wiki/Q111743075

Motion till riksdagen 2021/22:4373 av Jakob Forssmed m.fl. (KD)

Korrekt: https://www.wikidata.org/wiki/Q111036653 Inkorrekt dublett: https://www.wikidata.org/wiki/Q111743076

Motion till riksdagen 2021/22:4355 av Linda Lindberg m.fl. (SD)

Korrekt: https://www.wikidata.org/wiki/Q110567166 Inkorrekt dublett: https://www.wikidata.org/wiki/Q111743077

_Originally posted by @SchermanJ in https://github.com/salgo60/Wikidata_riksdagen-corpus/issues/50#issuecomment-1267376224_

salgo60 commented 1 year ago

@SchermanJ - udda med att Sveriges Riksdag dokument ID slutar med -

@ainali några tankar?

Ainali commented 1 year ago

Kan datat ha ändrats? Jag noterar att tre i dina första exempel har knepig etikett och titel: https://w.wiki/5n5r

salgo60 commented 1 year ago

ping @SchermanJ

image
SchermanJ commented 1 year ago

Här är ett exempel där jag tidigare bara tog bort bindestrecket och på så sätt fick URL att fungera: https://www.wikidata.org/wiki/Q111675322

salgo60 commented 1 year ago

Ok det intressanta är varför det blev fel och vi hittar övriga felen. Kollar du på listorna ovan verkar fler saker vara fel...

Gissar att det kan vara bra att fundera på om vi kan ändra reglerna i Wikidata med ex regexp och se om vi kan hitta fler fel...

Jag skall skriva upp på feedbacken till Riksdagens Öppna data att dom borde beskriva de världen identifieraren kan ha...

Ainali commented 1 year ago

Jag skall skriva upp på feedbacken till Riksdagens Öppna data att dom borde beskriva de världen identifieraren kan ha...

Är inte det redan bra beskrivet på: https://data.riksdagen.se/dokumentation/sa-funkar-dokument-id/

salgo60 commented 1 year ago

Kan vara jag ville ha regexp

Min vision är att ihop kopplingen blir mer automatisk och då känns regexp ett bra att berätta

Skall vi skala detta med öppen data till > 200 myndigheter och 290 kommuner plus göra det i hela världen behövs bra mönster som gärna inte skall vara en sida med massa text på svenska...

Jag tycker att Riksdagens öppna data har massa kvaliteter men skulle kunna bli lite bättre