kiq005 / movie-recommendation

A text analysis based technique for movie recommendation
GNU General Public License v3.0
0 stars 2 forks source link

Tratamento dos dados do Dataset #2

Open kiq005 opened 5 years ago

kiq005 commented 5 years ago

Utilizaremos o Dataset considerando título do filme, sumário e gêneros. O título do filme será utilizado para referência posterior no momento de recomendação de filmes e análise dos resultados. O gênero do filme será considerado para verificação da precisão dos resultados, esperamos que filmes do mesmo cluster possuam gêneros semelhantes. Por fim, o sumário será utilizado para a construção da matriz de distância, para tal, removeremos stop words e tomaremos os bigramas.

kiq005 commented 5 years ago

A ideia de trabalhar sobre bigramas é de evitar dissimilhança temática, por exemplo, atribuindo ao mesmo cluster dois filmes que falam de um mesmo tema(monstros), mas com abordagens diferentes (terror vs infantil). Uma análise mais profunda pode ser feita considerando também a listagem direta (monogramas), ou com mais de dois itens (trigramas).

kiq005 commented 5 years ago

Sobre a remoção das stop words, isto está relacionado a informação que elas nos trazem, uma vez que se tratam de conectivos, presentes basicamente em todos os textos, e que não acrescentam informações sobre a similaridade dos textos.

Palavras mais comúns:

Word Count Word Count
the 12695 in 4058
a 9340 his 3883
to 7849 is 3318
and 7267 with 2349
of 6847 her 1968

Palavras mais comúns (Sem stop words):

Word Count Word Count
life 804 two 538
new 714 man 506
one 685 family 496
young 629 find 473
world 568 story 450