Closed patymori closed 3 years ago
@scieloorg/scielo-ps-developers
Pessoal estou com um dúvida e gostaria de compartilhar com vocês!!!
Estou com logs padrão do python para esse dev, ou seja, utilizando log.erro("") log.info(""), como é um comando para que possamos depois realizar uma análise penso que seria interessante uma saída em jsonl
, o que acham?
Itens importantes para realizar essa atividade:
Jaccard Similarity:
https://www.statisticshowto.com/jaccard-index/
http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-55462016000400647
Consine Similarity:
https://stackoverflow.com/questions/18424228/cosine-similarity-between-2-number-lists
https://en.wikipedia.org/wiki/Cosine_similarity
Consine similarity VS Jaccard Similarity:
https://medium.com/analytics-vidhya/introduction-to-similarity-metrics-a882361c9be4
Descrição da nova funcionalidade
Eu, como responsável pela migração do site, gostaria que , após a sintetização dos documentos em HTML para XML, pudesse verificar se houve perda de conteúdo, então seria possível decidir sobre importação ou não dos documentos para o Kernel e identificar os problemas a serem corrigidos na conversão..
Critérios de aceitação
validate
Anexos
Código base: https://gist.github.com/joffilyfe/fc7363bc447cba28d49847e1b24437aa
Referências
.