Closed iagoadvaz closed 3 years ago
Olá @iagoadvaz! Essa coleta foi feita e está documentada nessa issue: https://github.com/MPMG-DCC-UFMG/C01/issues/288.
Nela, como foi explicado nesse comentário https://github.com/MPMG-DCC-UFMG/C01/issues/288#issuecomment-733142577, a fonte não oferecia a informação de extensão, logo não podemos saber qual é a extensão desse arquivo. A solução adotada foi usar os metadados do arquivo para inferir a extensão, e com isso, foi possível preencher o campo type no file_description. Isso significa que nem sempre temos a garantir que as extensões estarão explicitas por parte das fontes.
Acredito que se editássemos a extensão explicitamente geraria um nome "artificial" que pode ocasionar em outros bugs. Nesse caso, aconselho seguir o que está documentado no file_descriptor. O que acha? Tem alguma sugestão?
Oi @rennancordeiro!
Entendi, por enquanto a falta da extensão de forma explícita não está impactando em nossos trabalhos, dado que os extratores de pdf que estamos avaliando não precisam que a extensão faça parte do nome do arquivo.
De qualquer forma, em breve vamos discutir a respeito da ingestão dos dados coletados, vou aproveitar para levantar essa questão e caso haja algum problema eu volto a entrar em contato
Entendi @iagoadvaz! Vou fechar a issue para finalizar a discussão, mas, sinta-se livre para reabrí-la ou abrir novas para documentar novos pontos acerca dessa questão.
Comportamento Esperado
É esperado que os arquivos sejam armazenados com sua extensão ao final de seu nome (ex..<extensão_do_arquivo>). Formato também deveria ser seguido na key "file_name", presente no arquivo file_description.jsonl.
Comportamento Atual
Os arquivos são armazenados sem sua extensão, o mesmo ocorre para a key "file_name", presente no arquivo file_description.jsonl.
Localização
Onde os dados podem ser acessados, o que inclui a máquina e o caminho. Esse campo só se aplica quando a issue pretende reportar um bug, caso contrário (em pedido de coletas) pode ficar vazio ou pode descrever os dados disponíveis até então.
Detalhes da fonte
/files-gsi.mp.mg.gov.br/datalake/ufmg/crawler/webcrawlerc01/288_licitacoes-pirapetinga/data/files/
Detalhes da trilha
Trilha: M03 Responsável: Iago Domingues Email: iagoadvaz@dcc.ufmg.br
Screenshots e links (caso necessário)