Tratamento dos dados do Dataset

kiq005 / movie-recommendation

A text analysis based technique for movie recommendation

GNU General Public License v3.0

0 stars 2 forks source link

Tratamento dos dados do Dataset #2

Open kiq005 opened 5 years ago

kiq005 commented 5 years ago

Utilizaremos o Dataset considerando título do filme, sumário e gêneros. O título do filme será utilizado para referência posterior no momento de recomendação de filmes e análise dos resultados. O gênero do filme será considerado para verificação da precisão dos resultados, esperamos que filmes do mesmo cluster possuam gêneros semelhantes. Por fim, o sumário será utilizado para a construção da matriz de distância, para tal, removeremos stop words e tomaremos os bigramas.

kiq005 commented 5 years ago

A ideia de trabalhar sobre bigramas é de evitar dissimilhança temática, por exemplo, atribuindo ao mesmo cluster dois filmes que falam de um mesmo tema(monstros), mas com abordagens diferentes (terror vs infantil). Uma análise mais profunda pode ser feita considerando também a listagem direta (monogramas), ou com mais de dois itens (trigramas).

kiq005 commented 5 years ago

Sobre a remoção das stop words, isto está relacionado a informação que elas nos trazem, uma vez que se tratam de conectivos, presentes basicamente em todos os textos, e que não acrescentam informações sobre a similaridade dos textos.

Palavras mais comúns:

Word	Count	Word	Count
the	12695	in	4058
a	9340	his	3883
to	7849	is	3318
and	7267	with	2349
of	6847	her	1968

Palavras mais comúns (Sem stop words):

Word	Count	Word	Count
life	804	two	538
new	714	man	506
one	685	family	496
young	629	find	473
world	568	story	450