A matriz de distância está sendo construída utilizando a distância de Jaccard, porém outros métodos podem ser utilizados, e podem ser comparados para verificar eficiência (métodos já prontos no algoritmo: binary jaccard, masi, edit). Além disso, não se espera que os filmes possuam grande semelhança, na verdade, espera-se que poucos pares de palavras sejam coincidentes nos sumários, de forma que o escalonamento dos valores pode ajudar na clusterização. Para tal, pode-se utilizar uma função de escalonamento que mantenha os valores entre 0 e 1 (-x²+2x; 1/(1+e^(-10x+5)); e^(-3(x-1)²) ). Os dados da matriz estão sendo salvos em um arquivo .txt para referência e um .npy para uso nas etapas posteriores.
A matriz de distância está sendo construída utilizando a distância de Jaccard, porém outros métodos podem ser utilizados, e podem ser comparados para verificar eficiência (métodos já prontos no algoritmo: binary jaccard, masi, edit). Além disso, não se espera que os filmes possuam grande semelhança, na verdade, espera-se que poucos pares de palavras sejam coincidentes nos sumários, de forma que o escalonamento dos valores pode ajudar na clusterização. Para tal, pode-se utilizar uma função de escalonamento que mantenha os valores entre 0 e 1 (
-x²+2x
;1/(1+e^(-10x+5))
;e^(-3(x-1)²)
). Os dados da matriz estão sendo salvos em um arquivo.txt
para referência e um.npy
para uso nas etapas posteriores.