Closed trevineju closed 5 months ago
@Winzen essa issue pode ficar com vc?
Pr feito @trevineju 🕺
filetype
resolve o problema para arquivos binários mas não para arquivos de texto.Mais pra frente, com raspadores que baixem arquivos HTML sem extensão, provavelmente precisaremos adicionar uma terceira camada de detecção de extensão caso a filetype
não consiga detectar uma extensão .html
, por exemplo. Talvez voltando a usar python-magic
nesses casos.
cc @rennerocha
Os arquivos baixados durante a raspagem às vezes estão sem extensão.
Isso prejudica quem estiver contribuindo com desenvolvimento e teste de raspadores em Windows.
Além disso, como os arquivos entram na infra do projeto assim, faz com que, na ponta (plataforma web) seu download também fique sem extensão (em "baixar o arquivo original") e portanto sem abrir em computadores Windows (que deve ser majoritária parte do público usuário do Querido Diário).
Assim, é uma limitação que prejudica usuários no front, mas que começa na etapa de raspagem potencialmente limitando desenvolvedores também.
Tarefa: Implementar uma correção para que a extensão PDF seja adicionada automaticamente