bireme / DCDup

Double Check Duplicated documents
Other
0 stars 1 forks source link

Problema no check de MNT da BBO #3

Closed anakatiacamilo closed 7 years ago

anakatiacamilo commented 7 years ago

Heitor,

Parece que um pouco menos da metade dos registros do MNT (fonte - m) estão na lista de out2 sem o número correspondente do registro do FI-ADMIN, na lista aparece com o ID da base chegada no caso o BBO.

Arquivo de Entrada serverofi5:/bases/fiadmin2/DeDup/wrk/bbo/in_bbo_MNT.txt

Arquivos de Saída serverofi5:/bases/fiadmin2/DeDup/outs/bbo/MNT/

out1_bbo_MNT.txt out2_bbo_MNT.txt out_ok_bbo_MNT.txt

Exemplo: arquivo de entrada LILACS_MNT|201|Avaliação dos efeitos do trauma indireto sobre a articulação temporomandibular|1987|Luz, João Gualberto de Cerqueira|85

http://dedup.bireme.org/services/duplicates

{ •"params": { ◦"ano_publicacao": "1987", ◦"autores": "Luz, João Gualberto de Cerqueira", ◦"database": "lilacs_MNT", ◦"id": "?", ◦"paginas": "85", ◦"quantity": "10", ◦"schema": "LILACS_MNT_Four", ◦"titulo_monografico": "Evaluation of the effect of indirect trauma on the temporomandibular joint" }, •"total": 1, •"result": [ ◦{ ◾"score": "207.27954", ◾"similarity": "1.0", ◾"ano_publicacao": "1987", ◾"autores": "Luz, João Gualberto de Cerqueira", ◾"database": "LILACS_MNT", ◾"id": "201", ◾"paginas": "85", ◾"titulo_monografico": "Evaluation of the effect of indirect trauma on the temporomandibular joint" } ] }

201.91301|1.0|201|201|Avaliação dos efeitos do trauma indireto sobre a articulação temporomandibular|Avaliação dos efeitos do trauma indireto sobre a articulação temporomandibular|LILACS_MNT|lilacsmnt


Heitor, parece que o registos do MNT da BBO estão no índice do Dedup, porque até mesmo quando estão realmente duplicados aparece o ID da base da BBO segue exemplo:

LILACS_MNT|972|Montagem de dentes em prótese total: estudo do relacionamento entre o arco dental posterior e a crista do rebordo alveolar|1993|Tamaki Solz, Nely|57

{ •"params": { ◦"ano_publicacao": "1993", ◦"autores": "Tamaki Solz, Nely", ◦"database": "lilacs_MNT", ◦"id": "?", ◦"paginas": "57", ◦"quantity": "10", ◦"schema": "LILACS_MNT_Four", ◦"titulo_monografico": "Montagem de dentes em prótese total: estudo do relacionamento entre o arco dental posterior e a crista do rebordo alveolar" }, •"total": 3, •"result": [ ◦{ ◾"score": "224.56491", ◾"similarity": "1.0", ◾"ano_publicacao": "1993", ◾"autores": "Tamaki Solz, Nely", ◾"database": "LILACS_MNT", ◾"id": "4582", ◾"paginas": "57", ◾"titulo_monografico": "Montagem de dentes em prótese total estudo do relacionamento entre o arco dental posterior e a crista do rebordo alveolar" }, ◦{ ◾"score": "224.56491", ◾"similarity": "1.0", ◾"ano_publicacao": "1993", ◾"autores": "Tamaki Solz, Nely", ◾"database": "LILACS_MNT", ◾"id": "735083", ◾"paginas": "57", ◾"titulo_monografico": "Montagem de dentes em prótese total estudo do relacionamento entre o arco dental posterior e a crista do rebordo alveolar" }, ◦{ ◾"score": "224.56491", ◾"similarity": "1.0", ◾"ano_publicacao": "1993", ◾"autores": "Tamaki Solz, Nely", ◾"database": "LILACS_MNT", ◾"id": "972", ◾"paginas": "57", ◾"titulo_monografico": "Montagem de dentes em prótese total estudo do relacionamento entre o arco dental posterior e a crista do rebordo alveolar" } ] }

Sendo que os dois registros abaixo indicados pelo DeDup são do tipo Sas e somente o ultimo que esta certo apontando para o registro duplicado corretamente

http://fi-admin.bvsalud.org/bibliographic/edit-analytic/972 http://fi-admin.bvsalud.org/bibliographic/edit-analytic/4582 http://fi-admin.bvsalud.org/bibliographic/edit-source/735083

heitorbarbieri commented 7 years ago

Houve refatoramento dos shells de execução, facilitando a geração de índice do DeDup no servidor de produção diretamente a partir do Fi-Admin, isto é, sem passar por arquivo pipe. Isto permite que se garanta que o índice gerado esteja íntegro, pois foi gerado a partir do zero.

Os erros reportados acima parecem ser devidos a uma sequencia desconhecida e errônea de geração do índice. Espera-se que na geração do índice a partir do zero, tais erros desapareçam.

Uma verificação final deve ainda ser feita.