rgriva / Kaggle

Code for the Talking Data competition on Kaggle
1 stars 0 forks source link

Clustering e Dados Categóricos #3

Open rgriva opened 6 years ago

rgriva commented 6 years ago

Os nossos dados não tem nada numérico no sentido de contínuo. Tudo é uma categoria, um label numérico que representa na verdade alguma "palavra", tipo device 372 ser iPhone.

Dei uma pesquisada e vi que K-means pra clusterização funciona daquele jeito que tinha comentado contigo mas não pra dados categóricos. Aparentemente, existe um outro algoritmo chamado k-modes, mas isso é meio fronteira do conhecimento de Data Science.

Dá uma olhada nessa resposta aqui: https://datascience.stackexchange.com/questions/22/k-means-clustering-for-mixed-numeric-and-categorical-data

Acha que vale a pena tentar implementar isso de k-modes ou deixa pra lá? Entendo zero disso.

rgriva commented 6 years ago

Há um pacote de Python já implementando isso, mas me parece algo relativamente recente e ainda em desenvolvimento, construído em cima do scikit-learn e Numpy: https://github.com/nicodv/kmodes.git