salgo60 / Wikidata_riksdagen-corpus

repository for matching Wikidata with riksdagen-corpus
MIT License
12 stars 1 forks source link

Porträttbook about "vilde" #139

Closed salgo60 closed 1 year ago

salgo60 commented 1 year ago

Looks like the "Porträttbok" we now have scanned and uploaded to wikicommons with person in the picture set as depict same as wikidata person

image

#title: First/Sec chamber members pictures "vilde" how they are presented in "Porträttbooks"
#defaultView:ImageGrid
SELECT DISTINCT ?file ?wd ?name ?image (CONCAT(?party," ", COALESCE(?timevilde, "")) AS ?vilde) (concat("Book published ",str(year(?booktime))) AS ?bookPublished)
WITH 
{ SELECT distinct ?wd ?name ?itemDescription ?party ?timevilde ?startvilde ?endvilde WHERE
  { 
    SERVICE <https://query.wikidata.org/sparql> 
    {
      VALUES ?position { wd:Q81531912 wd:Q33071890 }
      ?wd wdt:P31 wd:Q5;
          wdt:P39 ?position.
      ?wd rdfs:label ?name. FILTER(lang(?name)="sv")
      {
       ?wd p:P102 ?PartyWD. 
       ?PartyWD ps:P102 ?p
       OPTIONAL {?PartyWD pq:P580 ?startvilde}
       OPTIONAL {?PartyWD pq:P582 ?endvilde}
       BIND (concat(str(year(?startvilde))," - ", str(year(?endvilde))) AS ?timevilde)
       ?p rdfs:label ?party.
       FILTER(LANG(?party) ="sv").
       FILTER(CONTAINS(?party, 'vilde'))
        SERVICE wikibase:label { bd:serviceParam wikibase:language "sv,en". }
       #FILTER (?wd = wd:Q5555629)
      }
    }
  }
} AS %Wikidataitems

WHERE 
{  INCLUDE %Wikidataitems .
  ?file wdt:P180 ?wd.
  VALUES ?booksP1433 { 
                       wd:Q116445396 # 1894
                       wd:Q110380539 # 1897 
                       wd:Q110380456 # 1900
                       wd:Q110375618 # 1903
                       wd:Q110376088 # 1906 
                       wd:Q116313186 # 1909
                     }

   SERVICE <https://query.wikidata.org/sparql> 
    {
      ?booksP1433 wdt:P585 ?booktime
    }
  FILTER (!BOUND(?startvilde) || ?startvilde <= ?booktime)
  #FILTER (?startvilde <= ?booktime)
  FILTER (!BOUND(?endvilde) || ?endvilde >= ?booktime)
  #FILTER (?endvilde >= ?booktime)
  ?file wdt:P1433 ?booksP1433.
  ?file schema:contentUrl ?url. 
  bind(iri(concat("http://commons.wikimedia.org/wiki/Special:FilePath/", wikibase:decodeUri(substr(str(?url),53)))) AS ?image)
} 
order by ?name ?startvilde
salgo60 commented 1 year ago

Get odd result for Q5555629

salgo60 commented 1 year ago

See if we can upload more pictures --> find people with partyname containing string "vilde" but has no pictures uploaded

image
salgo60 commented 1 year ago

Test with FILTER (!BOUND(?file)) gives no missing files ?!?!?! hm....

salgo60 commented 1 year ago

Today we can use SPA to search for vilde --> are we missing someone called vilde in the good old days?

image image

förut vilde - source that dont support start date / end date

image
salgo60 commented 1 year ago

moderat-konservativ "vilde"

image image
salgo60 commented 1 year ago

"Vilde" Riksarkivet SBL vs. boken Två-kammar Riksdagen...

cc: @fredrik1984 tankat?

image image

Wikidata tolkning...

image

fredrik1984 commented 1 year ago

Seems like a reasonable strategy for now. In Swerik project we will use the main bible and then I guess we can change smaller stuff when we find out information like this.

salgo60 commented 1 year ago

Focus list Välfärden analyserad - parti created

To get something started I mark those WD records were I see a potential problem with P5008 on focus list of Wikimedia project = Q120143028 - Välfärden analyserad - parti

imageimage

Feels like a good pattern

A pattern like this feels good to "mark" objects that are cared about in different research projects...

salgo60 commented 1 year ago

Se tanke nedan att skala ovanstående att jämföra med samtida källor till att göra detta för Svenska historiska tidningar hos KB - länk


Kan KB skapa sitt eget WIkidata för svenska historiska tidningar <-> ett facit på att Sveriges kulturarv dokumenteras

image

KB börjar nu kunna LLM så kanske dom är mogna att skapa en kunskapsgraph modell Wikidata men för svenska historiska Tidningar som vi skulle kunna koppla till och säga samma som från Wikidata - tanken svindlar och kunde som LA2 säger vara ett snyggt facit att hela Sveriges kulturarv dokumenteras

image
salgo60 commented 1 year ago

FB tråd om att leta i arkiv


_Spännande kollade på delar av filmen min tro är att skulle arkiv myndigheter vara duktiga på att skapa data som data skulle mycket med forskningen gå enormt enkelt… tyvärr är min bild av ISOF att dom är inte där

Jag ”hjälper” ett forsknings projekt som kopplar Riksdagsmän sedan 1885 till vad dom sa i Riksdagen och vad som skrevs. Utmaningen är typ Andersson i Söderala 1890 vem syftar man på då….

Lösningen är unika identifierare för alla personer i Riksdagen och i detta fall har vi nog nästan även unika artiklar i svenska Wikipedia för varje riksdagsman över tid ….

Gör man så och sedan anger partitillhörighet enligt vad forskarna sa i en bok Tvåkammarriksdagen…. Som är en auktoritet så kan vi nu med bättre data enkelt hitta alla personer som sägs vara ”vilde” enligt denna bok och se om dom klassificerades som ”högervilde” ”vänstervindar” ….

Eftersom det nu finns en annan eldsjäl som scannat in böcker från tidigt 1900 där vi kan se hur den tidens porträttböcker ange dessa ”vildar” —-> vi kan med ett klick hitta alla personer kring 1900 som av den ena boken kallas ”vilde” och se hur dessa personer betecknas i böcker skapade 1900 och se om historien tolkar saker olika….

Bra data som data gör detta möjligt då varje person har unikt identifierare och varje ”partibeteckning ” också har unika identifierare ( gäller även de som klassas som något vi idag inte kallar parti….

Se mer på

https://github.com/salgo60/Wikidata_riksdagen-corpus/issues/139_


Försök att ha dialog med ISOF 1) #142 att ange personnamn med persistenta identifierare 2023 / fråga 1 1) försök att prata med forskare i Umeå i ett "#144 Familia projekt" 2) annat försök med ISOF 2019 att dom skulle leverera 5-star data 2021 T235881 personnamn / T235738 dialekter / T235814 ISOF orter - fail ISOF har inte dom kompetenserna

salgo60 commented 1 year ago
image

chatGPT

image

RDF Triples for Political Figures:

<http://commons.wikimedia.org/wiki/Special:FilePath/M131803697> a foaf:Image ;
  dc:subject wd:Q4582704 ;
  foaf:depiction wd:Q4582704 ;
  rdfs:label "Scanned image of Adolf Hedin" .

wd:Q4582704 a foaf:Person ;
  foaf:name "Adolf Hedin" ;
  :politicalStatus "politisk vilde" ;
  :activePeriod "1893 - 1902" ;
  :depictedIn <http://commons.wikimedia.org/wiki/Special:FilePath/M131803697> .

<http://example.org/book/1897> a bibo:Book ;
  dc:date "1897"^^xsd:gYear ;
  dc:title "Frihandelsvänlig vilde" ;
  foaf:depiction wd:Q4582704 .

PROV-O Statements for Provenance:

<http://commons.wikimedia.org/wiki/Special:FilePath/M131803697> prov:wasGeneratedBy :ScanningActivity ;
  prov:wasAttributedTo :DigitizationProject ;
  prov:generatedAtTime "YYYY-MM-DDT00:00:00Z"^^xsd:dateTime .

:ScanningActivity a prov:Activity ;
  prov:startedAtTime "YYYY-MM-DDT00:00:00Z"^^xsd:dateTime ;
  prov:used <http://example.org/book/1897> ;
  prov:wasAssociatedWith :DigitizationProject .

:DigitizationProject a prov:Organization ;
  prov:hadPrimarySource <http://example.org/book/1897> .

And for PROV-O, one could represent the provenance information like this:

:BookEarly1900s a prov:Entity ;
                prov:wasAttributedTo :Author1 ;
                prov:generatedAtTime "1900-01-01T00:00:00Z"^^xsd:dateTime .

:Book1985 a prov:Entity ;
          prov:wasAttributedTo :Author2 ;
          prov:generatedAtTime "1985-01-01T00:00:00Z"^^xsd:dateTime .

:ConceptOfVilde prov:wasDerivedFrom :BookEarly1900s ;
                prov:wasAlteredIn :Book1985 .

Scanned picture - frihandelsvänlig vilde wd Q118289007 - Porträttbok: Riksdagsmän 1897

image

Wikidata

image image image image

SPA has implemented very good data to track changes and who is doing what

SPA json sj9PGLAlnmUAAAAAABGeXw

image image
salgo60 commented 1 year ago

Test prov:wasInfluencedBy :SelfDeclaration

image
wd:Q123456 a foaf:Person ;
  foaf:name "Politician Name" .

# Affiliations
wd:Q123456 :hasAffiliation [
  a :PartyAffiliation ;
  :party wd:Q6487621 ; # Lantmannapartiet
  :during "1903-1907"^^xsd:string
] .

wd:Q123456 :hasAffiliation [
  a :PartyAffiliation ;
  :party wd:Q10432852 ; # Bondeska diskussionsklubben
  :during "1898-1899"^^xsd:string
] .

wd:Q123456 :hasAffiliation [
  a :PartyAffiliation ;
  :classification "vilde" ;
  :during "1897 - 1897"^^xsd:string
] .

wd:Q123456 :hasAffiliation [
  a :PartyAffiliation ;
  :classification "vilde" ;
  :during "1900-1902"^^xsd:string
] .

wd:Q123456 :hasAffiliation [
  a :PartyAffiliation ;
  :party wd:Q111104528 ; # högervilde
  :during "1908-1911"^^xsd:string
] .

# Statements from sources
<http://example.org/book/Q110346241> a bibo:Book ;
  dc:title "Tvåkammar-riksdagen 1867–1970" .

<http://example.org/book/Q110380456> a bibo:Book ;
  dc:title "Porträttbok: Riksdagsmän 1900" ;
  foaf:depiction wd:Q123456 ;
  :hasStatement [
    a :Statement ;
    rdfs:label "Halfliberal frirelig. o. i tullfrågan enl. egen utsago 'opportunist', är S, f. n. 'vilde'"^^xsd:string
  ] .

PROV-O Statements for Provenance

# Provenance of the statement from Tvåkammar-riksdagen 1867–1970
:StatementFromTvåkammarRiksdagen a prov:Entity ;
  prov:wasAttributedTo wd:Q123456 ;
  prov:wasGeneratedBy :AuthoringActivity ;
  prov:generatedAtTime "XXXX-XX-XXT00:00:00Z"^^xsd:dateTime .

# Provenance of the statement from Porträttbok: Riksdagsmän 1900
:StatementFromPorträttbok a prov:Entity ;
  prov:wasAttributedTo wd:Q123456 ;
  prov:wasInfluencedBy :SelfDeclaration ;
  prov:wasGeneratedBy :AuthoringActivity ;
  prov:generatedAtTime "XXXX-XX-XXT00:00:00Z"^^xsd:dateTime .

# Self-declaration as a source of information
:SelfDeclaration a prov:Entity ;
  prov:wasQuotedFrom wd:Q123456 ;
  prov:qualifiedInfluence [
    a prov:Influence ;
    prov:agent wd:Q123456 ;
    prov:hadRole :SelfClassified
  ] .

:AuthoringActivity a prov:Activity ;
  prov:wasAssociatedWith :ResearcherOrAuthor .
image
salgo60 commented 1 year ago

Diskuterar bristen på PROV i metadata länk

salgo60 commented 1 year ago

Refererar denna post på FB


David Haskiya det intressanta blir då vi kan 1) tolka handskrifter 2) använda dessa handskrifter som belägg för att olika historiska händelser har skett

https://github.com/diggsweden/persistent-identifiers-investigation/issues/13#issuecomment-1806575996

Idag 2023 ser jag forskarna i Riksdagens corpus sitta och klippa och klistra från en bok från 1985 medans Wikicommons idag har tack vare Omar på Föreningen Svenskt Porträttarkiv massa scannade artiklar på riksdagspersoner från tidigt 1900 där vi kan se hur dessa personers beskrevs då och dessa texter är OCR scannade och finns i SPA apiet

Jag har skrivit en SPARQL som • söker fram alla personer i Wikidata med ”parti” som innehåller text strängen ”vilde” och har källa boken Tvåkammarriksdagen

—> att vi kan få se hur författarna till boken beskriver personer och hur dessa personer beskrevs vid tiden få händelsen skedde

https://github.com/salgo60/Wikidata_riksdagen-corpus/issues/139

Annan intressant semantisk finess är att man med PROV enligt chatGPT kan ange att detta uttalande kom från personen själv

prov:wasInfluencedBy :SelfDeclaration

https://github.com/salgo60/Wikidata_riksdagen-corpus/issues/139#issuecomment-1806830405

Ser framför mig att spelas korten rätt så kan vi i framtiden jmf den historiska forskningen över tid med vad handskrifter hos Riksarkivet säger eller forskare på den tiden skrev…

——- Skall detta steg tas så är det inte bara ML kunskap som skall in utan hela området med Digital Humaniora måste lyfta sig…. Jag ringde upp Pelle Snickars och försökte vara tydlig med att dom jobbar fel som inte har Persistenta identifierare i projektet Riksdagens corpus vilket nu verkar ske men dom har enl. mig inte tagit tag i detta med PROV och ännu mindre att olika källor från olika tidpunkter i historien säger olika saker….

Jag har börjat testa detta med Wikidatas ”rang” modell att ange att Wikidata har motstridiga källor dvs. att Riksarkivet SBL påstår något som inte kan bekräftas av kyrkböckerna eller till och kyrkböckerna säger är fel ex SPaRQL https://w.wiki/7SWN

Skall vårt grundata lyftas till denna nivå måste alla spela på samma spelplan och det skall finnas semantiska diskussioner… tycker jag ser att RAÄ nu ”nysatsar” men inte kommit längre än man visade 2012 med sin demo vilket gör mig övertygad om att saker som Digisam etc där man torrsimmar i 10 år inte gör folk klokare utan in med ML kunniga som Riksdagens corpus och våga ha en dialog med foliehattarna på Wikidata som ju faktiskt levererar på 200 språk, vågar låta alla skriva, kan hantera motstridiga fakta och trots allt detta är bättre än KB, RAÄ, Riksdagens öppna data och Riksarkivet att veta vem som suttit i svensk Riksdag….

Enorma möjligheter finns men ny kompetens måste vågas tas in…. jag brukar säga att det finns en anledning att Tesla inte anställde körskollärare för att utveckla självkörande bilar…. nu tycker jag kulturarvet allt för länge sprungit på ”bilskollärare ” spåret och ser tyvärr att RAÄ gör ett nytt försök 2023 med ”Nationell strategi för digitalt kulturarv 2023” https://github.com/salgo60/SamlaLibris/issues/37


salgo60 commented 1 year ago

ChatGPT on this subject in English

image image image image image image image