rafatieppo / lucylattes

lucyLattes script para a extração e compilação de dados do currículo Lattes
The Unlicense
57 stars 21 forks source link

Artigos duplicados #14

Open rencmbr opened 3 days ago

rencmbr commented 3 days ago

Boa tarde, Rafael

depois de rodar o lucylattes para o nosso programa de pós-graduação identifiquei dois artigos que aparecem duplicados na lista de artigos únicos. Só vi isso porque um deles é meu: Vector Nodal Meshless Method for 3-D Applications - DOI: 10.1109/tmag.2022.3233527

Para tentar encontrar outros, abri o arquivo relatorio/csv_report/report_papers_uniq.csv no Excel, ordenei as entradas pelo titulo dos artigos e procurei os títulos iguais. O segundo artigo duplicado é: A Strategy for Traffic Safety of Vehicular Platoons Under Connection Loss and Time-Delay - DOI: 10.1109/tits.2023.3258633

Me parece que a razão para o algoritmo não ter identificado as duplicatas foi a diferença de uma letra no título. O primeiro aparece na outra entrada como:

Vector Nodal Meshless Method for 3D Applications (note a falta do -)

e o segundo como:

A Strategy for Traffic Safety of Vehicular Platoons under Connection Loss and Time-dela (note a falta do y)

Os DOIs de ambos estão corretos nas duas entradas e, talvez, ele também possa ser usado para verificar se o artigo em periódico é o mesmo quando a diferença entre os títulos for muito pequena. Não tenho idéia de quão complicado é para implementar isso no algoritmo de identificação de duplicatas, portanto não leve em conta a minha sugestão caso ela seja de implantação complexa.

Abraços, Renato.

rencmbr commented 3 days ago

Esqueci de dizer, mas como você tem os currículos dos docentes do nosso programa, caso queira reproduzir os dados, o período que usei foi de 2021 a 2024. Para um período maior talvez apareçam outros artigos.