argendatafundar / qa

Control de calidad de datos
Other
0 stars 1 forks source link

Incorporar chequeo de codigos iso de unidades territoriales (ejemplo: paises) #21

Open jgjuara opened 10 months ago

jgjuara commented 10 months ago

Caso:

En el dataset 9 de acecon 9_pibpc_ppa_log_1950 hay una columna que contiene nombres de paises y nombres de unidades territoriales suprancionales ("América Latina" y "Tigres Asiáticos"). El dataset sin embargo no contiene una columna con codigos iso correspondientes a los paises.

image

En la planilla metadata se declara como dato de tipo alfanumerico.

image

Propuesta:

1) Quizás sería conveniente que los datos que refieran a unidades territoriales estándar (países oficiales, provincias, dptos, municipios, localidades, etc.) sea un tipo en si mismo a fin de poder identificarlas en la planilla de metadatos y ejecutar un chequeo específico en el dataset.

2) El reporter podría verificar que por cada columna del tipo "unidad territorial" debe existir una columna iso correspondiente.

joangq commented 10 months ago

En general siempre deberíamos chequear por alguna variación de "ISO"/"ISO3" en las columnas. También podríamos chequear por alguna variacion de "pais"/"country" y jugar con esa lógica para al menos reportar casos sospechosos (Por ejemplo, que haya una columna de paises y no una ISO; y que en la columna de paises, los valores no cumplan con la especificación de ISO de paises, como que por ejemplo no sean 3 letras).

Sobre eso después podríamos complejizarlo para estar más seguros de que el chequeo es certero.

TuQmano commented 10 months ago

El chequeo fuerza bruta podría considerar:

joangq commented 10 months ago

Sí, para hacer el BoW a mí me encantaría hacer lo que te dije de analizar las entregas que ya tenemos, y armar una bag inicial desde ahí.

Después podemos poner ejemplos a mano; pero también podríamos generar variaciones esperadas (trailing whitespaces, mayus, minus, combinacion de guiones, etc) programáticamente.

La BoW tiene que quedar estática almacenada en algún lado (no tiene que generarse cada vez) así la verificación es determinista. Y después chequeamos contra eso.


En principio igual creo que para los paises mirar lo contrario (que sean siglas de 3 letras en mayus) nos da un avance para saber si es un código ISO3 o no.