Open trevineju opened 3 months ago
oi @trevineju ..eu vi que a #907 está em produção e eu gostaria de começar a trabalhar nesta issue só para ver se eu entendi corretamente..eu poderia começar criando um raspador para Abaré - BA, certo? e aí criar novos raspadores para os outros links vigentes...ou o mapeamento teria outro significado?
Isso, @cassiasamp. O mapeamento serve apenas para listar os sites parecidos. Pode começar com Abaré-BA, sim. Se você puder enviar a PR com mais de um município (talvez uns 5), melhor. Não precisa ser um monte também, mas você vai notar que é muito simples. Basta copiar os municípios da PR #907
Obrigada @trevineju. Confirmando o que entendi da sua última mensagem..seria algo equivalente à este arquivo de Igaci ..só que para as urls vigentes?
Obrigada @trevineju. Confirmando o que entendi da sua última mensagem..seria algo equivalente à este arquivo de Igaci ..só que para as urls vigentes?
Isso, @cassiasamp. Para cada caso de URL vigente listada aqui, precisa de um arquivo como o de Igaci, modificado para o município em questão. Por isso falei que dava para contribuir com alguns.
obrigada @trevineju! Acabei de fazer o de Abaré, só tive um erro (aparentemente de 404) quando raspei tudo. Posso mandar assim mesmo com as evidências? Penso em mandar os primeiros 5 num mesmo PR, ou é melhor um por um?
eu queria confirmar que além desse município, irei fazer os próximos 4 de Acajutiba, Acorizal, Acrelândia e Aiquara. Pretendo ir pegando os outros também até terminar a lista.
[meio off topic] eu também precisei instalar diversas outras bibliotecas para conseguir rodar o crawler..pensei em atualizar a documentação futuramente com esses detalhes, faria sentido? ou pelo menos atualizar o requirements-dev.txt?
obrigada @trevineju! Acabei de fazer o de Abaré, só tive um erro (aparentemente de 404) quando raspei tudo. Posso mandar assim mesmo com as evidências? Penso em mandar os primeiros 5 num mesmo PR, ou é melhor um por um?
Isso. Essas questões sobre desempenho da coleta podemos conversar na própria PR. Manda sim os 5 juntos. Quando é um raspador mais complexo, fica melhor ser um por um, mas não é o caso desses raspadores padrão.
eu queria confirmar que além desse município, irei fazer os próximos 4 de Acajutiba, Acorizal, Acrelândia e Aiquara. Pretendo ir pegando os outros também até terminar a lista.
Ah, sensacional! Muito obrigada! <3
[meio off topic] eu também precisei instalar diversas outras bibliotecas para conseguir rodar o crawler..pensei em atualizar a documentação futuramente com esses detalhes, faria sentido? ou pelo menos atualizar o requirements-dev.txt?
A diferença do requirements
e requirements-dev
é que o primeiro são as dependências usadas em produção e o segundo (com -dev
) só é usado durante o desenvolvimento. Se você precisou adicionar dependências, pode ser o caso de atualizar o requirements.in
, porém precisaria ver melhor quais bibliotecas. Pode abrir uma outra PR para essa modificação e conversamos nela?
Acabei de mandar uma draft de PR. Infelizmente, só consegui coletar para Abaré e Almadina. Ainda não entendi o que aconteceu com os outros municípios.
Irei abrir outro PR para as dependências, eu tive outros problemas de um arquivo querido-diario.db
que surgia e acabava impedindo que os spiders rodassem, pois dava um erro de integridade ao tentar adicionar o município novamente ao db..precisei clonar o repositório de novo e agora já sei quais as bibliotecas, são apenas duas.
Irei abrir outro PR para as dependências, eu tive outros problemas de um arquivo
querido-diario.db
que surgia e acabava impedindo que os spiders rodassem, pois dava um erro de integridade ao tentar adicionar o município novamente ao db..precisei clonar o repositório de novo e agora já sei quais as bibliotecas, são apenas duas.
Só deletar o querido-diario.db
. Esse arquivo é um banco de dados SQLite, ele é criado toda vez que um raspador é executado e, realmente, se for executar o mesmo raspador mais de uma vez, ele vai reclamar, pois você estaria inserindo duas vezes o mesmo arquivo no banco. Mas pode excluir ele sempre que for fazer outra coleta, sem preocupações.
exatamente! depois do drama de "como assim tá dando erro?" eu entendi e comecei a deletar o arquivo do db, aí deu pra rodar o raspador mais de uma vez.
Sobre essa tarefa
Mapeado em fevereiro de 2024
URL vigente
Tem diários atuais