okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.11k stars 409 forks source link

Adicionar extensão ao arquivo baixado #819

Closed trevineju closed 5 months ago

trevineju commented 1 year ago

Os arquivos baixados durante a raspagem às vezes estão sem extensão.

Isso prejudica quem estiver contribuindo com desenvolvimento e teste de raspadores em Windows.

Além disso, como os arquivos entram na infra do projeto assim, faz com que, na ponta (plataforma web) seu download também fique sem extensão (em "baixar o arquivo original") e portanto sem abrir em computadores Windows (que deve ser majoritária parte do público usuário do Querido Diário).

image

Assim, é uma limitação que prejudica usuários no front, mas que começa na etapa de raspagem potencialmente limitando desenvolvedores também.

Tarefa: Implementar uma correção para que a extensão PDF seja adicionada automaticamente

trevineju commented 1 year ago

@Winzen essa issue pode ficar com vc?

Winzen commented 1 year ago

Pr feito @trevineju 🕺

ogecece commented 5 months ago

1153 foi mesclada e resolve nosso problema atual, mas queria deixar aqui uma preocupação pro futuro. Essa issue relata como a filetype resolve o problema para arquivos binários mas não para arquivos de texto.

Mais pra frente, com raspadores que baixem arquivos HTML sem extensão, provavelmente precisaremos adicionar uma terceira camada de detecção de extensão caso a filetype não consiga detectar uma extensão .html, por exemplo. Talvez voltando a usar python-magic nesses casos.

cc @rennerocha