scieloorg / document-store-migracao

Document Store (Kernel) - Migração
BSD 2-Clause "Simplified" License
1 stars 6 forks source link

[dsm] Comando para verificação de perda textual comparando texto completo do XML sintentizado com o original #370

Closed patymori closed 3 years ago

patymori commented 4 years ago

Descrição da nova funcionalidade

Eu, como responsável pela migração do site, gostaria que , após a sintetização dos documentos em HTML para XML, pudesse verificar se houve perda de conteúdo, então seria possível decidir sobre importação ou não dos documentos para o Kernel e identificar os problemas a serem corrigidos na conversão..

Critérios de aceitação

Anexos

Código base: https://gist.github.com/joffilyfe/fc7363bc447cba28d49847e1b24437aa

Referências

.

jamilatta commented 3 years ago

@scieloorg/scielo-ps-developers

Pessoal estou com um dúvida e gostaria de compartilhar com vocês!!!

Estou com logs padrão do python para esse dev, ou seja, utilizando log.erro("") log.info(""), como é um comando para que possamos depois realizar uma análise penso que seria interessante uma saída em jsonl, o que acham?

jamilatta commented 3 years ago

Itens importantes para realizar essa atividade:

Jaccard Similarity:

https://www.statisticshowto.com/jaccard-index/

http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462016000400647

Consine Similarity:

https://stackoverflow.com/questions/18424228/cosine-similarity-between-2-number-lists

https://en.wikipedia.org/wiki/Cosine_similarity

Consine similarity VS Jaccard Similarity:

https://medium.com/analytics-vidhya/introduction-to-similarity-metrics-a882361c9be4