larmarange / analyse-R

Introduction à l'analyse d'enquêtes avec R et RStudio
https://larmarange.github.io/analyse-R/
53 stars 40 forks source link

Classification automatique & Co. #101

Open even4void opened 5 years ago

even4void commented 5 years ago

Il serait intéressant d'ajouter un (sous-)chapitre sur les techniques de classification autre que la CAH, en particulier sur les nuées dynamiques (k-means), les modèles de mélange (mclust) et les techniques dérivées plus récentes (t-SNE, etc.).

Les k-means constituent un cas particulier des modèles de mélange (cas gaussien, même matrice de variance-covariance), et les modèles de mélange se retrouvent dans le domaine psychométriques sous l'appellation analyse en traits latents (dont le pendant dans le cas des données discrètes est l'analyse en classe latente).

Concernant la validation des résultats de "clustering" (cf. #70), le package fpc (approche par bootstrap et matrice de Jaccard) marche pas mal -- j'en fournis une illustration sur Cross Validated, et il présente l'avantage de marcher avec la plupart des algorithmes de classification de R.

Ma question est donc : (1) est-ce qu'on inclut tout ça dans le chapitre existant sur la classification ascendante hiérarchique, ou (2) est-ce qu'on crée un autre chapitre sur la validation des classifications et on inclut les nuées dynamiques et modèles de mélange en tant que sous-chapitre dans le chapitre déjà existant ?

larmarange commented 5 years ago

Salut,

c'est une bonne idée de chapitre. Ceci dit, plutôt que d'alourdir le chapitre sur la CAH, il me semblerait plus pertinent d'en faire un nouveau chapitre dans la section Analyser > Statistiques avancées, avec bien sûr des liens entre les chapitres.

larmarange commented 5 years ago

Et la validation des sous-classifications pourraient être une sous partie de ce nouveau chapitre Classifications automatiques et clustering

even4void commented 5 years ago

Ok, je m'en occupe dans ce cas ! Je soumettrai une PR pour clore cette issue.

larmarange commented 5 years ago

Petite question : es-tu familier du package NbClust ? (pour ma part, je le connais seulement de nom) Est-ce qu'il aurait sa place dans ce chapitre ?

even4void commented 5 years ago

Je connais une bonne partie de ces indices, mais je n'ai jamais utilisé ce package. Je préfère les méthodes de rééchantillonnage ou celles sur lesquelles on peut poser un modèle probabiliste. En tout cas, je vais le rajouter au chapitre sur la validation des solutions de classification non supervisée.

larmarange commented 5 years ago

Merci -- Joseph LARMARANGE Cell. phone (France): +33 6 62 06 51 82 Skype: joseph.larmarange http://joseph.larmarange.net

Le ven. 24 mai 2019 à 07:34, chl notifications@github.com a écrit :

Je connais une bonne partie https://stats.stackexchange.com/a/2610 de ces indices https://stats.stackexchange.com/a/11196, mais je n'ai jamais utilisé ce package. Je préfère les méthodes de rééchantillonnage ou celles sur lesquelles on peut poser un modèle probabiliste. En tout cas, je vais le rajouter au chapitre sur la validation des solutions de classification non supervisée.

— You are receiving this because you commented. Reply to this email directly, view it on GitHub https://github.com/larmarange/analyse-R/issues/101?email_source=notifications&email_token=AAHL5I4J4EUBP35QQKOJKTTPW547LA5CNFSM4HL5HPLKYY3PNVWWK3TUL52HS4DFVREXG43VMVBW63LNMVXHJKTDN5WW2ZLOORPWSZGODWEGNGA#issuecomment-495478424, or mute the thread https://github.com/notifications/unsubscribe-auth/AAHL5I2HAJPY5DYB332CRYLPW547LANCNFSM4HL5HPLA .