datasets-br / city-codes

Brazilian city names and official codes, IBGE, LexML and others
http://datasets.OK.org.br/city-codes
51 stars 16 forks source link

Wikidata area code for all cities of Brasil #27

Closed ppKrauss closed 6 years ago

ppKrauss commented 6 years ago

Statement as Wikidata:Bot_requests#Import_area_codes_P473_from_CSV_file:

COPY (
  SELECT "wdId" as qid, concat(ddd,' /*',name,'/',state,' */') as "P473" 
  FROM io.citybr
) TO '/tmp/import_area_codes_P473.csv' HEADER CSV;
ppKrauss commented 6 years ago

Corrigido por Wikidata@Marsupium, a sintaxe CSV exigida pelo QuickStatements é algo como

qid,P473,#
Q304652,""""62",Abadia de Goiás/GO
Q582223,""""34",Abadia dos Dourados/MG

com "double quoting" no valor de uma string, portanto

COPY (
  SELECT "wdId" as qid, '"'||ddd as "P473",
     concat(name,'/',state) as "#" 
  FROM io.citybr
) TO '/tmp/import_area_codes_P473.csv'  
WITH( header, format CSV, force_quote("P473") )
;

Ver batches do QuickStatements: #3291 br-ddd-b01a2, #3293 br-ddd-b01, #3294 br-ddd-b02, #3295 br-ddd-b03, #3296 br-ddd-b04, #3297 br-ddd-b05, #3298 br-ddd-b06. Foram os ~5500 itens!

ppKrauss commented 6 years ago

Houveram por volta de 150 registros com erro em em meio a ~5500, portanto menos de 3%.

Analisando manualmente algumas amostras concluiu-se que são na sua maioria municípios que ainda não tinham asserção de estado em que está contido (por exemplo Alagoinhas não estava vinculado a Bahia)... Resolvida essa pendêcia, os dados já inseridos foram automaticamente corrigidos. Trata-se de uma regra de validação do códio de área, precisa ter antes P131.

ppKrauss commented 6 years ago

Lista dos 122 erros residuais (sem P473), correspondendo a menos de 1% dos ~5500 municípios... Iniciando por uma amostra:

name state ddd idIBGE concat status
Porto Real do Colégio AL 82 2707503 Q1772685 feito manualmente
São Brás AL 82 2708204 Q2021424 feito manualmente
Taquarana AL 82 2709103 Q1800641 feito manualmente
União dos Palmares AL 82 2709301 Q1795918 feito manualmente
Viçosa AL 82 2709400 Q2026896 ....

Foram todos resolvidos manualmente sem problema: impossível saber qual foi o problema do QuickStatements (ver batch 3312 com exatamente estes mesmos itens, porém lá dá erro!).

Listando o restante dos 122 para manipular manualmente:

name state ddd idIBGE concat
Antas BA 75 2901601 Q2014732
Araci BA 75 2902104 Q682336
Tanhaçu BA 77 2931004 Q1794964
Taperoá BA 75 2931202 Q2021109
Tapiramutá BA 74 2931301 Q646894
Terra Nova BA 75 2931707 Q1808357
Tremedal BA 77 2931806 Q1795094
Tucano BA 75 2931905 Q598704
Uauá BA 74 2932002 Q1795209
Ubaíra BA 75 2932101 Q1793911
Ubatã BA 73 2932309 Q746419
Una BA 73 2932507 Q1794007
Uruçuca BA 73 2932705 Q1772617
Utinga BA 75 2932804 Q1772640
Valente BA 75 2933000 Q1806997
Vera Cruz BA 71 2933208 Q1794349
Wagner BA 75 2933406 Q1793811
Catarina CE 88 2303600 Q2347628
Catunda CE 88 2303659 Q2027151
Chorozinho CE 85 2303956 Q251350
Cruz CE 88 2304251 Q986510
Horizonte CE 85 2305233 Q2135472
Marco CE 88 2307809 Q2289962
Morrinhos CE 88 2308906 Q2028310
Mulungu CE 85 2309102 Q2289857
Novo Oriente CE 88 2309409 Q2028019
Uruaçu GO 62 5221601 Q1793345
Uruana GO 62 5221700 Q1794037
Vianópolis GO 62 5222005 Q986271
Alvarenga MG 33 3102209 Q2007777
Antônio Carlos MG 32 3102902 Q1805349
Arcos MG 37 3104205 Q1804949
Boa Esperança MG 35 3107109 Q1805369
Bonfim MG 31 3108107 Q1805722
Brasília de Minas MG 38 3108602 Q1799538
Cabo Verde MG 35 3109501 Q1815606
Cachoeira Dourada MG 34 3109808 Q2077925
Caldas MG 35 3110301 Q2007990
Campanário MG 33 3110806 Q1957976
Campestre MG 35 3111002 Q2077804
Canápolis MG 34 3111804 Q1805812
Cantagalo MG 33 3112059 Q2064920
Carmo do Cajuru MG 37 3114204 Q2007691
Cláudio MG 37 3116605 Q2007621
Coimbra MG 32 3116704 Q2063933
Conquista MG 34 3118205 Q2007414
Corinto MG 38 3119104 Q2008000
Coromandel MG 34 3119302 Q1805792
Delta MG 34 3121258 Q1805738
Espinosa MG 38 3124302 Q1805786
Fama MG 35 3125200 Q1900550
Gouveia MG 33 3127602 Q2101396
Igarapé MG 31 3130101 Q2050036
Indianópolis MG 34 3130705 Q1805773
Itapeva MG 35 3133600 Q2007732
Januária MG 38 3135209 Q1805374
Lagoa dos Patos MG 38 3137304 Q1804893
Lagoa Grande MG 34 3137536 Q2007758
Liberdade MG 32 3138500 Q1805333
Lontra MG 38 3138658 Q2357138
Medina MG 33 3141405 Q2104166
Monte Carmelo MG 34 3143104 Q1877935
Montezuma MG 38 3143450 Q2063943
Nova União MG 31 3136603 Q2661298
Ouro Branco MG 31 3145901 Q2007609
Prata MG 34 3152808 Q1815988
Rio Paranaíba MG 34 3155504 Q1809966
Rio Piracicaba MG 31 3155702 Q1804734
Rio Pomba MG 32 3155801 Q1804907
Santa Bárbara MG 31 3157203 Q1886752
São Francisco MG 38 3161106 Q1904163
São João Evangelista MG 33 3162807 Q1805400
Turmalina MG 38 3169703 Q1962454
Aparecida do Taboado MS 67 5001003 Q1797156
Terenos MS 67 5008008 Q1804982
Rio Pomba MG 32 3155801 Q1804907
Santa Bárbara MG 31 3157203 Q1886752
São Francisco MG 38 3161106 Q1904163
São João Evangelista MG 33 3162807 Q1805400
Turmalina MG 38 3169703 Q1962454
Aparecida do Taboado MS 67 5001003 Q1797156
Terenos MS 67 5008008 Q1804982
Alto Araguaia MT 66 5100300 Q1806398
Vila Rica MT 66 5108600 Q2082843
Tucumã PA 94 1508084 Q2445520
Altos PI 86 2200400 Q1940492
Amarante PI 86 2200509 Q2094729
Uruçuí PI 89 2211209 Q2104841
Valença do Piauí PI 89 2211308 Q730382
Várzea Grande PI 89 2211407 Q2233145
Tapejara PR 44 4126801 Q2105955
Terra Roxa PR 44 4127403 Q2104252
Lagoa Vermelha RS 54 4311304 Q985575
São Francisco de Paula RS 54 4318200 Q578627
Angelina SC 48 4200903 Q1784392
Anitápolis SC 48 4201109 Q1750770
Tangará SC 49 4217907 Q921105
Três Barras SC 47 4218301 Q1784369
Vargem SC 49 4219150 Q2011987
Monte Alegre de Sergipe SE 79 2804201 Q2079721
Nossa Senhora da Glória SE 79 2804508 Q2014499
Nossa Senhora das Dores SE 79 2804607 Q1924777
Poço Verde SE 79 2805505 Q2014476
Riachão do Dantas SE 79 2805802 Q2078413
Telha SE 79 2807303 Q2079737
Tobias Barreto SE 79 2807402 Q2013156
Tomar do Geru SE 79 2807501 Q615936
Umbaúba SE 79 2807600 Q1807390
Tremembé SP 12 3554805 Q1772599
Uru SP 14 3555901 Q1795600
Valparaíso SP 18 3556305 Q1763552
Vera Cruz SP 14 3556602 Q1808155
Alvorada TO 63 1700707 Q2102493
Taguatinga TO 63 1720903 Q2078623

(122 registros)

SELECT name, state, "idIBGE", concat('[',"wdId",'](http://wikidata.org/entity/',"wdId",')') 
FROM io.citybr 
WHERE "idIBGE" IN (

 '5100300','2200400','3102209','1700707','2200509','4200903','4201109','2901601',
 '3102902','5001003','2902104','3104205','3107109','3108107','3108602','3109501',
 '3109808','3110301','3110806','3111002','3111804','3112059','3114204','2303600',
 '2303659','2303956','3116605','3116704','3118205','3119104','3119302','2304251','3121258','3124302','3125200','3127602','2305233','3130101','3130705','3133600','3135209','3137304','3137536','4311304','3138500','3138658','2307809','3141405','2804201','3143104','3143450','2308906','2309102','2804508','2804607','3136603','2309409','3145901','2805505','2707503','3152808','2805802','3155504','3155702','3155801','3157203','2708204','3161106','4318200','3162807','1720903','4217907','2931004','4126801','2931202','2931301','2709103','2807303','5008008','2931707','4127403','2807402','2807501','2931806','3554805','4218301','2931905','1508084','3169703','2932002','2932101','2932309','2807600','2932507','2709301','3555901','5221601','5221700','2932705','2211209','2932804','2211308','2933000','3556305','4219150','2211407','2933208','3556602','5222005','2709400','5108600','2933406'
)
order by 2,1;