MPMG-DCC-UFMG / C01

Coleta de Dados Públicos
GNU General Public License v3.0
18 stars 9 forks source link

[288_licitacoes-pirapetinga] - Arquivos salvos sem extensão #473

Closed iagoadvaz closed 3 years ago

iagoadvaz commented 3 years ago

Comportamento Esperado

É esperado que os arquivos sejam armazenados com sua extensão ao final de seu nome (ex. .<extensão_do_arquivo>). Formato também deveria ser seguido na key "file_name", presente no arquivo file_description.jsonl.

Comportamento Atual

Os arquivos são armazenados sem sua extensão, o mesmo ocorre para a key "file_name", presente no arquivo file_description.jsonl.

Localização

Onde os dados podem ser acessados, o que inclui a máquina e o caminho. Esse campo só se aplica quando a issue pretende reportar um bug, caso contrário (em pedido de coletas) pode ficar vazio ou pode descrever os dados disponíveis até então.

Detalhes da fonte

/files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01/288_licitacoes-pirapetinga/data/files/

Detalhes da trilha

Trilha: M03 Responsável: Iago Domingues Email: iagoadvaz@dcc.ufmg.br

Screenshots e links (caso necessário)

image

rennancl commented 3 years ago

Olá @iagoadvaz! Essa coleta foi feita e está documentada nessa issue: https://github.com/MPMG-DCC-UFMG/C01/issues/288.

Nela, como foi explicado nesse comentário https://github.com/MPMG-DCC-UFMG/C01/issues/288#issuecomment-733142577, a fonte não oferecia a informação de extensão, logo não podemos saber qual é a extensão desse arquivo. A solução adotada foi usar os metadados do arquivo para inferir a extensão, e com isso, foi possível preencher o campo type no file_description. Isso significa que nem sempre temos a garantir que as extensões estarão explicitas por parte das fontes.

Acredito que se editássemos a extensão explicitamente geraria um nome "artificial" que pode ocasionar em outros bugs. Nesse caso, aconselho seguir o que está documentado no file_descriptor. O que acha? Tem alguma sugestão?

iagoadvaz commented 3 years ago

Oi @rennancordeiro!

Entendi, por enquanto a falta da extensão de forma explícita não está impactando em nossos trabalhos, dado que os extratores de pdf que estamos avaliando não precisam que a extensão faça parte do nome do arquivo.

De qualquer forma, em breve vamos discutir a respeito da ingestão dos dados coletados, vou aproveitar para levantar essa questão e caso haja algum problema eu volto a entrar em contato

rennancl commented 3 years ago

Entendi @iagoadvaz! Vou fechar a issue para finalizar a discussão, mas, sinta-se livre para reabrí-la ou abrir novas para documentar novos pontos acerca dessa questão.