Open talitaburbulhan opened 2 years ago
estou deixando a issue disponÃvel para contribuição
Olá! Quero contribuir nessa issue
Olá! Relato aqui algumas dificuldades em automatizar a construção desse spider, e também apresentar propostas na implementação da spider. Dessa forma, pretendo deixar mais claro as motivações da construção do código.
>Boletins em duas partes Alguns boletins apresentam a descrição "Parte I" e "Parte II". fonte: https://www.guarapuava.pr.gov.br/boletins-oficiais/2015-2/
Nesse caso, aqueles arquivos com a descrição "Parte I" serão tratados como ediçao regular, enquanto aqueles com "Parte II" serão tratados como edição extra.
>Erros no HTML da página fonte: https://www.guarapuava.pr.gov.br/boletins-oficiais/2020-2/
Especificamente na consulta dos boletins de 2020, existe um item listado em branco. Ele é acessado pelo mesmo seletor que os boletins. Para que esse caso não retorne erro, acredito que a melhor solução é ignorar os itens selecionados com atributos href e text vazios.
>Boletim sem data não possuem arquivos disponÃveis fonte: https://www.guarapuava.pr.gov.br/boletins-oficiais/2011-2/
Algumas edições de boletim não estão disponÃveis. Nesse caso, elas apresentam o número da edição, mas não apresentam data da edição. Foram encontrados no total 11 boletins indisponÃveis. Nesse caso, acredito que ignorar os boletins que não apresentam data garante que a coleta não gere erros.
Buscarei deixar explicito onde implementei as soluções pra cada um desses casos.
According to the census, the city of Guarapuava has its gazettes here: https://www.guarapuava.pr.gov.br/boletins-oficiais/
I would like to work on this issue.