okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.04k stars 384 forks source link

Simplifica definição de extensão de arquivo baixado #1153

Closed rennerocha closed 3 weeks ago

rennerocha commented 1 month ago

Melhorias em https://github.com/okfn-brasil/querido-diario/pull/1045

Quando a extensão do arquivo não é informada no nome dele, tentamos
identificar ela através dos headers do response ou através de seu
conteúdo. Porém devido a maneira como o Scrapy funciona, isso vai fazer
com que o arquivo seja baixado novamente em novas execuções do spider.
Para resolver esse problema seria necessários muitas mudanças na
estrutura do Scrapy (incluindo a criação de novos FileStorage, o que
tornaria o projeto mais complexo, com um ganho de performance
irrelevante.

Com esse modificação, identificamos a extensão, e se ela não vier por
padrão, o arquivo será baixado novamente toda vez que reexecutarmos o
spider (o que nunca acontece em produção para a data específica)
ogecece commented 4 weeks ago

Na quarta eu faço uns testes, mas me pareceu bom!