Closed ericbrasiln closed 1 year ago
Oi, Eric.
Estava aqui pensando como ocorreu esse problema se o modo de escrite é a...Você tem uma explicação? Obrigada!
"problema com nomes dos pdfs
pdfs antigos da revista aceno possui incoerências e seus títulos: muitos pdfs com o mesmo nome. Isso faz com que o programa substitua o pdf antigo pelo novo. Isso pode ser resolvido com a inclusão de um número sequencial no nome do arquivo. Ex: nome_1.pdf, nome_2.pdf, nome_3.pdf etc. Fiz isso criando o self.id_number que é incrementado a cada iteração do loop na função de download de pdfs."
Olá @nadia-aguiar
Parabéns pelo trabalho! O código está funcionando bem e deu certo em mais duas revistas.
Fiz uma revisão geral e registrei aqui.
Arquivo
requirements.txt
requirements.txt
para facilitar a instalação das dependências do projeto (você havia indicado no readme.mfd mas ele não existia).erro com
firefox.quit()
firefox.quit()
poraceno.driver.quit()
Função
save_files_pdf()
Erros ao tentar baixar pdf:
[x] NoSuchElementException - aconteceu com REPAM. O
self.pdf_article
. não é encontrado. Incluí umtry
para tratar esse erro. Caso o elemento não seja encontrado o programa imprimi uma mensagem de erro e continua a execução.[x] Error 404: Not Found - aconteceu na revista aceno. incluí um
try
para que o programa continue rodando mesmo que o pdf não seja baixado. Uma mensagem de erro é impressa no terminal para que o usuário saiba que o pdf não foi baixado.problema com nomes dos pdfs
nome_1.pdf
,nome_2.pdf
,nome_3.pdf
etc. Fiz isso criando oself.id_number
que é incrementado a cada iteração do loop na função de download de pdfs.Revistas testadas além da aceno
Funcionaram corretamente com a coleta dos dados, mas não baixou os pdfs corretamente. Não consegui identificar o motivo. Acredito que seja com o link do pdf.
Afro-Ásia: https://periodicos.ufba.br/index.php/afroasia/issue/archive Repam: https://periodicos.unb.br/index.php/repam/issue/archive