Open kiq005 opened 5 years ago
A ideia de trabalhar sobre bigramas é de evitar dissimilhança temática, por exemplo, atribuindo ao mesmo cluster dois filmes que falam de um mesmo tema(monstros), mas com abordagens diferentes (terror vs infantil). Uma análise mais profunda pode ser feita considerando também a listagem direta (monogramas), ou com mais de dois itens (trigramas).
Sobre a remoção das stop words, isto está relacionado a informação que elas nos trazem, uma vez que se tratam de conectivos, presentes basicamente em todos os textos, e que não acrescentam informações sobre a similaridade dos textos.
Word | Count | Word | Count |
---|---|---|---|
the | 12695 | in | 4058 |
a | 9340 | his | 3883 |
to | 7849 | is | 3318 |
and | 7267 | with | 2349 |
of | 6847 | her | 1968 |
Word | Count | Word | Count |
---|---|---|---|
life | 804 | two | 538 |
new | 714 | man | 506 |
one | 685 | family | 496 |
young | 629 | find | 473 |
world | 568 | story | 450 |
Utilizaremos o Dataset considerando título do filme, sumário e gêneros. O título do filme será utilizado para referência posterior no momento de recomendação de filmes e análise dos resultados. O gênero do filme será considerado para verificação da precisão dos resultados, esperamos que filmes do mesmo cluster possuam gêneros semelhantes. Por fim, o sumário será utilizado para a construção da matriz de distância, para tal, removeremos stop words e tomaremos os bigramas.