okfn-brasil / observatorio-materiais

Organização de materiais referentes ao Observatório de Tecnologias na Educação
MIT License
1 stars 0 forks source link

Revisar script, algoritmo de busca e os parâmetros utilizados para melhorar os resultados #23

Open tigreped opened 2 years ago

tigreped commented 2 years ago

Garantir que os parâmetros estão se comportando corretamente para produzir os resultados esperados:

  1. Garantir a presença de um termo primário;
  2. Garantir que os parâmetros utilizados pelo algoritmo de busca estejam sendo utilizados da maneira apropriada, respeitando a relação entre parâmetro primário e parâmetros secundários;
  3. Verificar se a restrição de distância entre termos está implementada corretamente, aplicando-se para as distâncias entre o termo primário e um dado termo secundário, e não entre dois termos secundários, por exemplo.
  4. Tentar evitar duplicatas nos resultados;
tigreped commented 2 years ago

A revisão dos scripts indicou que a implementação inicial do método de busca dos excertos utilizando span_or no nó raiz estava considerando válidos os resultados de excertos que contivessem qualquer um dos termos de pelo menos um dos grupos termos complementares, deixando-a muito permissiva, pouco restritiva.

Foi sugerida uma implementação em que o nó raiz é span_near com um grupo span_or para cada grupo de termos, obrigado assim a existência de pelo menos um termo de cada grupo de termos nos excertos retornados e tornando assim o processo mais restritivo.

Como consequência da possibilidade de comparar os resultados entre ambas as implementações, sugeriu-se comparar também com os resultados da consulta realizado utilizando a busca intervalar, bem como a utilização de outros parâmetros, como a mudança do tamanho do gap/slop, consideração ou não dos tipos de publicação, etc.

ogecece commented 2 years ago

Tarefa foi despriorizada por enquanto. Após a finalização da Análise 1 podemos repriorizar.