cluster users based on similarity - Githubissues

smadha / MlTrio

CSCI-567 course project

Apache License 2.0

0 stars 0 forks source link

cluster users based on similarity #1

Open smadha opened 8 years ago

smadha commented 8 years ago

Two possible ways -

Use KMeans with multiple K - http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans
Using a distance matrix .
- Find distance between all users and compute a similarity score
- Cluster similar users using DBSCAN - http://scikit-learn.org/stable/modules/clustering.html#dbscan

We can calculate similarity S_i_j between user i and j using Pearson correlation, Cosine-Based Similarity, measuring KL divergence etc..

smadha commented 8 years ago

We will create 2 type of clusters

based on Word ID sequence similarity between users
based on Character ID sequence similarity between users