okfn-brasil / orcamento.inesc.org.br

Visualização dos dados do orçamento federal feita para a INESC
MIT License
11 stars 2 forks source link

Descobrir um conjunto de colunas do nosso dataset que seja único #40

Open vitorbaptista opened 10 years ago

vitorbaptista commented 10 years ago

No OpenSpending, configurei todas as colunas de agrupamentos (órgão, uo, função, subfunção, GND, etc.) e data como sendo parte da chave primária. Mas, mesmo assim, ao final da carga do dataset, temos:

198474 rows were read, but only 198373 entries created. Check the unique key criteria, entries seem to overlap.

Só consegui carregar tudo se adicionasse também a coluna com o nome do arquivo de origem. Mas não deveria precisar. Será que existem linhas de anos em arquivos errados? Por exemplo, uma entrada de 2010 no arquivo de 2011?

Precisamos checar isso para garantir a veracidade dos dados.

/cc @everton137

everton137 commented 10 years ago

@vitorbaptista , após retirar as entradas com "NÃO APLICÁVEL", continua com o problema:

198464 rows were read, but only 18604 entries created. Check the unique key criteria, entries seem to overlap.

Only 18604 entries created? Acho que não sei como configurar as colunas de agrupamento. :/

Investigando.

mihi-tr commented 10 years ago

There seems to be some overlap in the columns and how unique entries are marked in OpenSpending - you might want to go back and check both your model and your assumptions about the data.

Further: if your datastore is not completely empty - just ignore this error. It just means that it updated the re-occuring ones and did not create a new line.

vitorbaptista commented 10 years ago

Sim, como o @mihi-tr falou, o problema desse "only 18604 entries created" foi porque o teu dataset não estava vazio. O que vale na real é:

198464 rows were read, but only 198372 entries created.

Você mudou as colunas? Ele já estava com esse problema. Também não consegui entender porque. Só consegui fazê-lo carregar todas as linhas adicionando o nome do arquivo na chave primária. Mas como a data já faz parte da chave primária, e cada arquivo tem só um ano, não faz sentido. Deixei sem porque o problema é outro, só não sei qual.