Realizar testes com novas metodologias de busca

ogecece commented 2 years ago

Para a geração das novas bases de dados, realizar as seguintes alterações:

Trocar palavra "sistema" por "sistema de gestão" e "sistema integrado de gestão"
- Sistema Educacional [categoria gestão]
- Sistema de Informática [categoria gestão]
- Sistema de Gestão (Escolar, Pública, da Educação) [categoria gestão]
- Sistema Integrado de Gestão (da Educação) [categoria gestão]
- SIGEDUC [categoria gestão]
Alterar Span ou Gap de 20 para 50
Vocabulário em português
Remover grupo de palavras de tipo de publicação
Comparar algoritmo de span com busca intervalar
Implementar Negação de termos
- Autorização de funcionamento (termo da lista negra)

Metodologia:

Realizar o processamento para gerar os conjuntos de dados a partir dos parâmetros, utilizando as 4 configurações possíveis para execução do algoritmo de consulta na base:

a) Referência: Conjunto A (spanmais permissivo, 20 slop, com grupo de palavras tipo de publicação → 6923 resultados Acurácia: 30% |(|+-2100 excertos) b) Conjunto B (span mais permissivo, 50 slop, sem grupo de palavras tipo de publicação → ? resultados Acurácia: 20% |(|+-? excertos) c) Conjunto C (span mais restritivo, 50 slop, sem grupo de palavras tipo de publicação) → 700+ resultados Acurácia: ?% (? excertos) d) Conjunto D (intervalar mais restritivo, 50 gap, sem grupo de palavras tipo de publicação) → ? resultados

Executar o algoritmo para produzir o conjunto B, calcular a acurácia a partir de uma amostragem aleatória dos resultados (e.g. 1% dos resultados) e comparar com acurácia do conjunto de referência.

Depois, implementar as consultas para gerar os conjuntos C e D para comparação com A e B.

Implementar método de análise dos resultados das consultas, separando por UF e verificando se há reincidência dos excertos entre os conjuntos.

tigreped commented 2 years ago

Concluir os testes com a geração dos conjuntos de dados no drive.

Realizar análise dos conjuntos de dados utilizando como referência as cidades de Petrolina e Sumaré.

tigreped commented 2 years ago

O primeiro conjunto de dados [dataset1.csv]() foi gerado com os parâmetros utilizados inicialmente. 20 termos de distância no máximo entre os termos, utilizando o algoritmo span mais permissivo, inclui a lista de tipos de publicação, mas não especificava a palavra sistema. É considerada a base de referência. Possui 6923 resultados.

O conjuto de dados dataset2.csv foi gerado utilizando a mesma distância entre termos (20 de gap/slop), mas foi retirado o conjunto de sinônimos dos tipos de publicação. O conjunto gerado possui 15217 resultados, o que indica que com a remoção dos tipos de publicação, as consultas ficam menos restritivas, retornando mais resultados.

Por essa razão, recomenda-se a utilização do grupo de sinônimos para tipos de publicação.

O dataset3.csv, por sua vez, foi gerado substituindo-se o uso da palavra "sistema" por frases mais específicas, como "sistema de gestão" ou "sistema educacional". O conjunto de dados gerado possui 1533 resultados, um número mais reduzido.

tigreped commented 2 years ago

O conjunto dataset4.csv foi gerado idêntico ao anterior (dataset3.csv), mas com uma distância maior, de 50 termos, ao invés de 20. Gerou 4990 resultados, indicando mais que 3x o número de resultados, com o aumento da distância.

O conjunto dataset5.csv foi uma tentativa da implementação restritiva com 50 termos de distância. Esta retornou apenas 106 resultados.

O conjunto dataset6.csv diferiu da anterior apenas pela distância entre os termpos, utilizando 20. Esta retornou os mesmos 106 resultados, contraindicando o argumento percebido no conjunto dataset4.csv uma vez que nesse caso a quantidade de resultados não mudou em função da distância entre os termos buscados.

A implementação atual do método de busca intervalar não retornou resultados, indicando que ainda precisa de alguns ajustes para retornar resultados válidos, portanto não foi utilizada para análise.

ogecece commented 2 years ago

Tarefa despriorizada por enquanto, até o fim da Análise #1. O dataset3 será utilizado para complementar o dataset inicial para a realização da Análise 1 e com isso teremos sua acurácia em algumas cidades restantes.

Após o fim da análise, o dataset4 já pode ser analisado. Para verificar sua acurácia, podemos realizar a amostragem. Mas, observar alguns municípios analisados com o dataset3 será interessante para verificar se há ocorrências relevantes no dataset4 que não haviam aparecido antes.

Em paralelo a isso, podemos investir no desenvolvimento das outras metodologias.

okfn-brasil / observatorio-materiais

Realizar testes com novas metodologias de busca #24