HXL-CPLP / forum

Fórum do Grupo de Usuários do Padrão HXL da Comunidade dos Países de Língua Portuguesa, "HXL-CPLP"
https://github.com/HXL-CPLP/forum/issues
The Unlicense
2 stars 0 forks source link

Vocabulário controlado: `+v_wikidata` (PT: Identificador Wikidata) (EN: Wikidata Q identifier; unique identifier (UID) used in Wikidata) #36

Open fititnt opened 3 years ago

fititnt commented 3 years ago

Minha proposta aqui é no HXL-CPLP termos alguma forma de explicitar que está sendo usado vocabulários relacionados à Wikidata. Só não tenho certeza quanto ao nome usar, porém +v_wikidata (+v_wd poderia ser também, mas corre risco de talvez existir outro uso) parece ser razoável.

Uma motivação para deixar explícito isso é o que tem nesse comentário aqui: https://github.com/HXL-CPLP/forum/issues/34#issuecomment-743933734:


ID HRinfo ID RW ID m49 numerical code FTS API ID ISO 3166-1 Alpha 2-Codes ISO 3166-1 Alpha 3-Codes x Alpha2 codes x Alpha3 codes Preferred Term m49 Alt Term ISO Alt Term UNTERM Alt Term FTS Alt Term HRinfo Alt Term RW Short Name RW API Alt Term English Short French Short Spanish Short Russian Short Chinese Short Arabic Short Admin Level Latitude Longitude Region Code Region Name Sub-region Code Sub-region Name Intermediate Region Code Intermediate Region Name Regex Concatenation    
#meta +id #country +code +v_hrinfo_country #country +code +v_reliefweb #country +code +num +v_m49 #country +code +v_fts #country +code +v_iso2 #country +code +v_iso3     #country +name +preferred #country +name +alt +v_m49 #country +name +alt +v_iso #country +name +alt +v_unterm #country +name +alt +v_fts #country +name +alt +v_hrinfo_country #country +name +short +v_reliefweb #country +name +alt +v_reliefweb #country +name +i_en +alt +v_unterm #country +name +i_fr +alt +v_unterm #country +name +i_es +alt +v_unterm #country +name +i_ru +alt +v_unterm #country +name +i_zh +alt +v_unterm #country +name +i_ar +alt +v_unterm #geo +admin_level #geo +lat #geo +lon #region +main +code #region +main +name +preferred #region +sub +code #region +sub +name +preferred #region +intermediate +code #region +intermediate +name +preferred #country +regex      
1 181 13 4 1 AF AFG     Afghanistan               Afghanistan Afghanistan (l') [masc.] Afganistán (el) Афганистан 阿富汗 أفغانستان 0 33.83147477 66.02621828 142 Asia 34 Southern Asia     afghan      

Eu pessoalmente achei bem elegante essa abordagem. Mesmo que no HXL-CPLP a gente não precise (pelo menos inicialmente) ter todos os identificadores usados no HDX, a ideia de quando tivermos que por nomes localizados, por algo como #country +name +i_pt +v_wikidata seria extremamente elegante.

Some-se a isso que esse identificador deixaria mais claro, por exemplo, que #country +name +i_pt +v_wikidata (que pode ter sido obtido por referencia de humanos, já que qualquer pessoa acessando wikidata.com pode sugerir) tem um critério de revisão menor do que seria um #country +name +i_pt +v_unterm (vide https://unterm.un.org/unterm/country). Isso naturalmente ajuda reduzir os disclaimers (e também incentiva pessoa que ve aquilo saber o que ter mais atenção.

fititnt commented 3 years ago

Usando essa extensão https://gsuite.google.com/marketplace/app/wikipedia_and_wikidata_tools/595109124715, e, para testes por enquanto com string hardcoded, o comando =WIKIDATAFACTS("Q155") retorna isto:

Captura de tela de 2020-12-13 00-18-46


country +name +i_pt +v_wikidata |  

-- | -- Great Russian Encyclopedia Online ID | 1881226 Bibliothèque nationale de France ID | 11868637v Getty Thesaurus of Geographic Names ID | 1000047 topic's main Wikimedia portal | Portal:Brazil motto | Order and Progress Wikimedia outline | outline of Brazil National Diet Library ID | 00561061 New York Times topic ID | destination/brazil GeoNames ID | 3469034 GND ID | 4008003-1 Unicode character | 🇧🇷 UNESCO Thesaurus ID | concept764 licence plate code | BR geography of topic | geography of Brazil ISO 3166-1 alpha-3 code | BRA office held by head of government | President of Brazil Google News topics ID | CAAqJQgKIh9DQkFTRVFvSUwyMHZNREUxWm5JU0JYQjBMVUpTS0FBUAE Quora topic ID | Brazil patron saint | Our Lady of Aparecida MeSH descriptor ID | D001938 ITU/ISO/IEC object identifier | 2.16.76 MusicBrainz area ID | f45b47f8-5796-386e-b172-6c31b009a5d8 has quality | free country coat of arms image | Coat of arms of Brazil.svg INSEE countries and foreign territories code | 99416 inception | +1822-09-07T00:00:00Z PACTOLS thesaurus ID | pcrt8MX4DfGUpg office held by head of state | President of Brazil Commons gallery | Brasil legislative body | National Congress of Brasil history of topic | history of Brazil Gran Enciclopèdia Catalana ID | 0012068 Universal Decimal Classification | (81) STW Thesaurus for Economics ID | 17915-1 replaces | Empire of Brazil subreddit | brasil continent | South America official website | https://www.gov.br coat of arms | Coat of arms of Brazil compulsory education (maximum age) | +14 National Library of Israel ID | 000977286 Larousse ID | pays/wd/110123 OpenStreetMap relation ID | 59470 WIPO ST.3 | BR NALT ID | 3005 NKCR AUT ID | ge128817 SELIBR ID | 141619 mobile country code | 724 maritime identification digits | 710 U.S. National Archives Identifier | 10035712 ISO 3166-1 alpha-2 code | BR compulsory education (minimum age) | +7 marriageable age | +18 topic's main category | Category:Brazil real gross domestic product growth rate | -3.6 central bank | Central Bank of Brazil category of people buried here | Category:Burials in Brazil BBC Things ID | 15f1bcf6-b6ab-48e8-b708-efed41e43d31 age of majority | +18 Dewey Decimal Classification | 2--81 area | +8515767 Le Monde diplomatique subject ID | pays/bresil IOC country code | BRA FAST ID | 1206830 unemployment rate | +7 GACS ID | 184 VIAF ID | 142985214 Encyclopædia Britannica Online ID | place/Brazil page banner | Botafogo banner.jpg category for films shot at this location | Category:Films shot in Brazil executive body | Federal Government of Brazil category for people who died here | Category:Deaths in Brazil YSO ID | 108126 anthem | Brazilian National Anthem highest judicial authority | Supreme Federal Court Commons category | Brazil top-level Internet domain | .br highest point | Pico da Neblina category for people born here | Category:Births in Brazil driving side | right BabelNet ID | 00012786n lowest point | Atlantic Ocean NE.se ID | brasilien archINFORM location ID | 2974 CIVICUS Monitor country entry | brazil ISO 3166-1 numeric code | 076 IdRef ID | 02643895X Giant Bomb ID | 3035-720 ITU letter code | B country calling code | +55 Freebase ID | /m/015fr Statoids ID | ubr ASC Leiden Thesaurus ID | 29490249X named after | Caesalpinia echinata Library of Congress authority ID | n79128015 DMOZ ID | Regional/South_America/Brazil/ flag | flag of Brazil FIPS 10-4 (countries and regions) | BR Dagens Nyheter topic ID | brasilien ISNI | 0000 0001 2176 6679 Global Anabaptist Mennonite Encyclopedia Online ID | Brazil main regulatory text | Constitution of Brazil Brockhaus Enzyklopädie online ID | brasilien maintained by WikiProject | WikiProject Brazil external data available at | http://dados.gov.br TED topic ID | Brazil IAB code | 1260 Klexikon article ID | Brasilien LoC and MARC vocabularies ID | countries/bl native label | República Federativa do Brasil Catholic Encyclopedia ID | 02745c literacy rate | +92 Comic Vine ID | 4020-55853 MeSH tree code | Z01.107.757.176 World Encyclopedia of Puppetry Arts ID | brazil Who's on First ID | 85633009 Orthodox Encyclopedia ID | 153311 Treccani's Dizionario di Storia ID | brasile DR topic ID | brasilien Al-Jazeera topic ID | country/brazil minimum temperature record | -14 OmegaWiki Defined Meaning | 8303 HDS ID | 003393 GS1 country code | 789-790 culture | culture of Brazil GeoNLP ID | 1jGQEW Academy Awards Database nominee ID | 3483 Invasive Species Compendium Datasheet ID | 108381 UK Parliament thesaurus ID | 8780 Analysis & Policy Observatory term ID | 6483 category for maps | Category:Maps of Brazil French Vikidia ID | Brésil English Vikidia ID | Brazil Spanish Vikidia ID | Brasil Italian Vikidia ID | Brasile Twitter username | govbr EuroVoc ID | 5040 Hrvatska enciklopedija ID | 9346 De Agostini ID | Brasile image | Brazil topo.jpg Marine Regions Geographic IDentifier (MRGID) | 2143 motto text | Brasil – sensational! JORFSearch organization ID | Brazil Proleksis enciklopedija ID | 13494 Open Data portal | DataViva KBpedia ID | Brazil described at URL | https://www.cia.gov/library/publications/resources/the-world-factbook/geos/br.html Grove Art Online ID | T011017 located on terrain feature | South American Plate Gynopedia ID | Brazil RKD thesaurus ID | 3668 PM20 geo code | E97 ILI ID | i83346 Jewish Encyclopedia ID (Russian) | 10720 The Top Tens ID | 102 economy of topic | economy of Brazil Libris-URI | 31fhgvzm2hg6014 edition humboldt digital ID | H0005346


Ainda seria possível obter os dados usando o query.wikidata.org como descrito aqui https://github.com/HXL-CPLP/forum/issues/34#issuecomment-743720023. Porém se descobrirmos como fazer direto na planilha para pegar apenas os nomes, e esse processo não custoso para atualizar, poderia valer a pena deixar a planilha mesmo fazer isso.

fititnt commented 3 years ago

C****ho, que lindo!

A "má" notícia é que o WIKIDATAFACTS (plugin do Google Spreadhseets) seria pesado demais para deixar a planilha o tempo todo recalculando. Ou seja, por os Q codes da wikidata e tentar a planilha mesmo pegar os dados em tempo real seria pesado demais.

A boa notícia é que a função que citem em https://github.com/HXL-CPLP/forum/issues/34#issuecomment-743710016, depois de ficar fuçando a documentação, permitiria que a gente tenha uma query padrão, que precisaria ser executada por um humano e re-importada no planilhas, mas que em compensação permitiria pegar muito, mas muito mais dados. Nesse exemplo testei #country +code +v_iso2 e #country +code +v_iso3

#Find ISO 3166-1 alpha-2 country codes
SELECT ?country_code_v_iso2 ?country_code_v_iso3 ?country ?countryLabel ?population
WHERE
{
    ?country wdt:P297 ?country_code_v_iso2 .
    ?country wdt:P298 ?country_code_v_iso3 .
    SERVICE wikibase:label { bd:serviceParam wikibase:language "en" }
    ?country wdt:P36 ?population .
}
ORDER BY ASC(?countryLabel)

Captura de tela de 2020-12-13 01-07-32

Como a própria Wikidata tem propriedades para quase tudo, pode valer a pena ter uma super query para todos os campos. E dai facilita para verificar de tempos em tempos se ou a planilha principal tem alguma inconsistencia, ou se os dados na Wikidata/Wikipedia estão não consistentes!