Caracterização dos dados de itens e lotes

LeandroGripp commented 2 years ago

Caracterizar os dados de itens e lotes que o César disponibilizou.

[x] Rodar consultas disponibilizadas para obter dados
[x] Criar notebook que importa esses dados
[x] Fazer uma análise comparativa dos valores de licitação, comparando o valor total declarado e a soma dos valores dos itens, consideados separadamente
[x] Fazer uma análise estatística para verificar quanto do conjunto de dados apresenta valores razoáveis
[x] Extrair conclusões sobre a qualidade dos dados

LeandroGripp commented 2 years ago

Estou tendo problemas com o tamanho da base de dados. Por ter 29 milhões de linhas, não está sendo possível carregar toda a estrutura de dados na memória, com todas as colunas. Com menos colunas, até está sendo possível carregar em memória, mas iterar sobre as linhas é extremamente lento. Como cada linha diz respeito à participação de um cnpj em um item, seria preciso iterar por elas para gerar um dicionário com os itens e seus valores, descartando duplicatas (nesse momento, não nos interessamos tanto pelas participações dos CNPJs em si) Alternativas já pensadas:

Processamento em chunks dos dados Possíveis problemas:
- Ainda que o processamento consuma uma quantidade fixa de memória, a iteração pelas linhas continua igualmente lenta. Para iterar sem executar nenhuma operação real sobre as linhas, está demorando em torno de 25 minutos.
- O dicionário gerado poderia ser muito grande em memória e inviabilizar a solução da mesma forma.
Usar dask.dataframe Problema já percebido:
- Inconsistências nos dados fazem com que o sistema de inferência de tipos do dask não consiga funcionar bem e encontramos erros de execução (por exemplo, ele infere int ou float, mas tem strings no meio do caminho). Seria necessário forçar todas as colunas a ser do tipo object, o que torna o dataset muito grande e faz com que perdamos parte das operações que poderíamos executar sobre as colunas.
- A iteração sobre as linhas continua lenta

LeandroGripp commented 2 years ago

Ao selecionar apenas colunas de interesse e descartar entradas que se tornam duplicadas ao eliminar grande parte das colunas, é possível carregar os dados em memória. Continua sendo excessivamente custoso iterar sobre as linhas (ainda são 24 milhões - a maior parte dos itens tem apenas um cnpj participante), então as análises vão ficar restritas às operações que é possível fazer no Pandas, que são bem otimizadas.

LeandroGripp commented 2 years ago

Caracterização por vlr_global

[x] Filtrar somente por campos que tenham um vlr_global
[x] Verificar quantos sobram
[x] Verificar se, para um mesmo item, temos vlr_global diferentes
[x] Verificar quantos itens temos nesse universo
[x] Verificar quantos desses itens têm mais de um participante
[x] Se os dados se mostrarem úteis, exportá-los

LeandroGripp commented 2 years ago

Caracterização por vlr_global

Há 75595 linhas com valor global, sendo que para um mesmo item há valores globais diferentes. Dessa forma, para cada item computamos o valor mínimo. Pra as linhas em que o item é -1, mantivemos o valor global como valor mínimo, interpretando que não há itens diversos na licitação, mas sim um item único
Há 44151 linhas correspondentes a itens com mais de um CNPJ licitante, correspondendo a 13722 itens distintos (em realidade, são 13832 itens, pois a consulta também agrupou os itens com id_item_licitacao igual a -1. Vai ser melhor tratar de um id composto licitação-item, para considerar os casos em que o id do item é -1, caso em que o id da licitação deve valer.
Também foi gerado um dataframe que tem somente os itens com múltiplos cnpjs associados, tomando o cuidado de preservar os itens com id -1 como entradas separadas e com valor próprio.
Há uma seção de exportações para gerar esses dados

LeandroGripp commented 2 years ago

Com o dataset reduzido, foi possível utilizar o pandas-profiling. A grandeza de interesse era, principalmente, o valor global mínimo por item. Abaixo coloco algumas métricas encontradas sobre esse valor.

Verificamos, assim, que o valor máximo é da ordem de 19 milhões. Apesar de ser um valor alto, é coerente com a ordem de grandeza que licitações podem assumir. Para garantir a razoabilidade, verificamos também quais seriam esses itens milionários e constatamos que são itens que de fato tendem a ter valores altos:

Além disso, foi plotado um histograma (em escala logarítmica, pois em linear ele confina praticamente todos os itens juntos) para determinar a distribuição de valores.

Pode-se notar que, como esperado, a maior parte dos itens não passa da ordem das dezenas de milhares de reais, o que sugere que a base de dados pode ser trabalhada de forma coerente

MPMG-DCC-UFMG / M04

Caracterização dos dados de itens e lotes #47

Caracterização por vlr_global

Caracterização por vlr_global