okfn-brasil / querido-diario

📰 Diários oficiais brasileiros acessíveis a todos | 📰 Brazilian government gazettes, accessible to everyone.
https://queridodiario.ok.org.br/
MIT License
1.11k stars 411 forks source link

Fix - Atualizando versão do requests fingerprint #1307

Closed jjpaulo2 closed 4 weeks ago

jjpaulo2 commented 4 weeks ago

Motivação

Todos os spiders estão lançando este warning. Para remover ele, apenas segui a recomendação da documentação de usar a versão 2.7, dado que já estamos usando o scrapy 2.11.

Esse é um recurso que é usado para evitar a duplicação de requisições feitas pelo Scrapy. A maior parte dos recursos afetados por essa atualização são coisas relacionadas à cache de requests, e o projeto não usa nada disso.

[py.warnings] WARNING: /Users/.../.virtualenvs/querido-diario-dvpf/lib/python3.10/site-packages/scrapy/utils/request.py:254: ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting.

It is also the default value. In other words, it is normal to get this warning if you have not defined a value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting. This is so for backward compatibility reasons, but it will change in a future version of Scrapy.

See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

Eu rodei alguns spiders aleatórios para garantir que nada estava quebrando, e de fato as requisições continuam rodando perfeitamente.

Referência

Requests and Responses — Scrapy 2.11.2 documentation

jjpaulo2 commented 4 weeks ago

@trevineju pra conseguir caminhar com a evolução do script em #1284, é importante removermos esse warning pra não gerar nenhum "falso negativo" no teste.

trevineju commented 4 weeks ago

o único problema de atualizar a versão do fingerprint é o scrapy perder a referência das últimas URLs acessadas... mas isso não vai impactar a coleta diária. Talvez impacte a próxima coleta mensal individualmente, mas se os metadados não mudarem, o banco não vai permitir re-adicionar documentos repetidos. E se mudarem, já conhecemos o rastro que deixa no banco. Então acredito que o impacto é mínimo.

Estou aprovando a PR