rafatieppo / lucylattes

lucyLattes script para a extração e compilação de dados do currículo Lattes
The Unlicense
57 stars 21 forks source link

Limitando o período de extração de dados de congressos e periódicos #13

Closed rencmbr closed 1 week ago

rencmbr commented 1 week ago

Quando aplicávamos o lucylattes para muitos pesquisadores (no caso do nosso programa de pós-graduação, cerca de 60), o volume de dados da produção em periódicos e em congressos ficava muito grande, se extraída sem limitar-se o período de tempo. Daí a função de eliminar duplicatas na produção ficava muito lenta (para o nosso programa estava demorando quase 12 horas) e, para o relatório final, nem toda a produção era usada (só a especificada no arquivo de configuração).

O que fiz foi limitar a extração (feita em getpapers_minidom e getworksevents_minidom) ao período indicado no config_tk.txt, reduzindo o tempo de eliminação de duplicatas a alguns minutos. Não fiz isso para projetos, mas usando a mesma lógica, isso pode ser feito no futuro.

Algumas observações: 1) Caso você queira testar a sua versão e a nova com os nossos dados, posso subi-los para o meu fork ou mesmo incluí-los neste pull request. 2) Modifiquei o .gitignore para não gerar conflitos com os arquivos que são gerados após a execução do script (csv_producao, relatorio, etc) 3) Modifiquei novamente o getgeneraldata_minidom.py - ainda ocorreu erro na geração do relatório para 1 currículo que não tinha especificado cidade e estado de nascimento. Com a modificação está tudo OK.

rafatieppo commented 1 week ago

Obrigado pelas considerações. Como não sei exatamente o procedimento exato de realizar o merge e para evitar complicações, fiz alterações manualmente no código e posteriormente o push.

Alterações oriundas do seu fork que foram realizadas

Melhorias que estava trabalhando:

obs.: se puder compartilhar os arquivos do lattes seria muito bom. Pode ser via git ou google drive, o que for mais prático.

rencmbr commented 6 days ago

Boa noite, Rafael. Tem um livro muito bom do git em https://git-scm.com/book/en/v2 . É o que usei para aprender,

O capítulo 6 trata do github, incluindo 1) como contribuir para um projeto: https://git-scm.com/book/en/v2/GitHub-Contributing-to-a-Project e 2) para o "project owner", como trabalhar com as contribuições: https://git-scm.com/book/en/v2/GitHub-Maintaining-a-Project , Gosto do fluxo de trabalho que ele propõe, com os "pull requests" interativos - quem contribui e quem recebe as contribuições interage até chegar a um consenso sobre a contribuição.

Vou testar as suas modificações assim que der aqui. Nesse meio tempo, aqui vai o link para os Lattes que estou usando para testes: https://drive.google.com/drive/folders/167LyYKV-8K0F0GYDaIsvcbId0w5wWp86?usp=sharing

Sobre o qualis, eu adicionei no meu pull request o "Qualis Geral", que contém os qualis de todas as áreas (arquivo qualis_todasareas_periodicos_2020.csv). É o que é usado atualmente para classificação, independentemente da "área mãe" de classificação, por isso achei importante inclui-lo.

Abraços, Renato.

rafatieppo commented 4 days ago

Bom dia.

Rafael Tieppo site: https://rafatieppo.github.io   

On Saturday, November 9, 2024 at 06:43:35 PM GMT-4, Renato ***@***.***> wrote:  

Boa noite, Rafael. Tem um livro muito bom do git em https://git-scm.com/book/en/v2 . É o que usei para aprender,

O capítulo 6 trata do github, incluindo

Vou testar as suas modificações assim que der aqui. Nesse meio tempo, aqui vai o link para os Lattes que estou usando para testes: https://drive.google.com/drive/folders/167LyYKV-8K0F0GYDaIsvcbId0w5wWp86?usp=sharing

Sobre o qualis, eu adicionei no meu pull request o "Qualis Geral", que contém os qualis de todas as áreas (arquivo qualis_todasareas_periodicos_2020.csv). É o que é usado atualmente para classificação, independentemente da "área mãe" de classificação, por isso achei importante inclui-lo.

Abraços, Renato.

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you modified the open/close state.Message ID: @.***>

rencmbr commented 4 days ago

Excelente, Rafael.

No meu teste aqui também rodou em um minuto. Impressionante a melhoria do desempenho.

Muito obrigado! Abraços, Renato.