Open ogecece opened 2 years ago
Concluir os testes com a geração dos conjuntos de dados no drive.
Realizar análise dos conjuntos de dados utilizando como referência as cidades de Petrolina e Sumaré.
O primeiro conjunto de dados [dataset1.csv]() foi gerado com os parâmetros utilizados inicialmente. 20 termos de distância no máximo entre os termos, utilizando o algoritmo span mais permissivo, inclui a lista de tipos de publicação, mas não especificava a palavra sistema. É considerada a base de referência. Possui 6923 resultados.
O conjuto de dados dataset2.csv foi gerado utilizando a mesma distância entre termos (20 de gap/slop), mas foi retirado o conjunto de sinônimos dos tipos de publicação. O conjunto gerado possui 15217 resultados, o que indica que com a remoção dos tipos de publicação, as consultas ficam menos restritivas, retornando mais resultados.
Por essa razão, recomenda-se a utilização do grupo de sinônimos para tipos de publicação.
O dataset3.csv, por sua vez, foi gerado substituindo-se o uso da palavra "sistema" por frases mais específicas, como "sistema de gestão" ou "sistema educacional". O conjunto de dados gerado possui 1533 resultados, um número mais reduzido.
O conjunto dataset4.csv foi gerado idêntico ao anterior (dataset3.csv), mas com uma distância maior, de 50 termos, ao invés de 20. Gerou 4990 resultados, indicando mais que 3x o número de resultados, com o aumento da distância.
O conjunto dataset5.csv foi uma tentativa da implementação restritiva com 50 termos de distância. Esta retornou apenas 106 resultados.
O conjunto dataset6.csv diferiu da anterior apenas pela distância entre os termpos, utilizando 20. Esta retornou os mesmos 106 resultados, contraindicando o argumento percebido no conjunto dataset4.csv uma vez que nesse caso a quantidade de resultados não mudou em função da distância entre os termos buscados.
A implementação atual do método de busca intervalar não retornou resultados, indicando que ainda precisa de alguns ajustes para retornar resultados válidos, portanto não foi utilizada para análise.
Tarefa despriorizada por enquanto, até o fim da Análise #1. O dataset3 será utilizado para complementar o dataset inicial para a realização da Análise 1 e com isso teremos sua acurácia em algumas cidades restantes.
Após o fim da análise, o dataset4 já pode ser analisado. Para verificar sua acurácia, podemos realizar a amostragem. Mas, observar alguns municípios analisados com o dataset3 será interessante para verificar se há ocorrências relevantes no dataset4 que não haviam aparecido antes.
Em paralelo a isso, podemos investir no desenvolvimento das outras metodologias.
Para a geração das novas bases de dados, realizar as seguintes alterações:
Metodologia:
Realizar o processamento para gerar os conjuntos de dados a partir dos parâmetros, utilizando as 4 configurações possíveis para execução do algoritmo de consulta na base:
a) Referência: Conjunto A (spanmais permissivo, 20 slop, com grupo de palavras tipo de publicação → 6923 resultados Acurácia: 30% |(|+-2100 excertos) b) Conjunto B (span mais permissivo, 50 slop, sem grupo de palavras tipo de publicação → ? resultados Acurácia: 20% |(|+-? excertos) c) Conjunto C (span mais restritivo, 50 slop, sem grupo de palavras tipo de publicação) → 700+ resultados Acurácia: ?% (? excertos) d) Conjunto D (intervalar mais restritivo, 50 gap, sem grupo de palavras tipo de publicação) → ? resultados
Executar o algoritmo para produzir o conjunto B, calcular a acurácia a partir de uma amostragem aleatória dos resultados (e.g. 1% dos resultados) e comparar com acurácia do conjunto de referência.
Depois, implementar as consultas para gerar os conjuntos C e D para comparação com A e B.
Implementar método de análise dos resultados das consultas, separando por UF e verificando se há reincidência dos excertos entre os conjuntos.