bireme / SimilarDocs

Engine to look for similar documents stored at a Lucene index
Other
0 stars 0 forks source link

Priorizar documentos mais novos quando a similaridade for alta #10

Closed renatomurasaki closed 7 years ago

heitorbarbieri commented 7 years ago

Para o ordenamento das datas dos documentos, utilizou-se elemento presente nos xmls utilizados na indexação. A data apresentada em cada documento no iahx corresponde ao elemento do xml, mas como este elemento não está presente em todos os xmls, por ex os do lis, optou-se por utilizar o por estar presente em todos os xmls.

O algoritmo utilizado para a priorização dos documentos é o seguinte: a) recuperam-se os documentos similares a um documento b) destes documentos, todos aqueles com ranking igual ou superior a 80 são ordenados por data c) se ainda faltarem documentos para se completar a quantidade mínima padrão (10 documentos), utlizam-se os documentos com ranking menores de 80 em ordem decrescente.