larmarange / analyse-R

Introduction à l'analyse d'enquêtes avec R et RStudio
https://larmarange.github.io/analyse-R/
53 stars 40 forks source link

analyse-R/multicolinearite #107

Closed utterances-bot closed 2 years ago

utterances-bot commented 4 years ago

Multicolinéarité dans la régression

undefined

http://larmarange.github.io/analyse-R/multicolinearite.html

miaou157 commented 4 years ago

Bonjour, merci beaucoup pour cette explication claire et pratique qui permet de prendre du recul.

romain-lardy commented 4 years ago

Bonjour, Merci beaucoup pour ces explications qui m'ont été très utiles. Puis-je suggérer d'ajouter une ou deux phrases sur l'utilisation de GVIF^(1/(2*Df)) par rapport à GVIF ?

larmarange commented 4 years ago

C'est envisageable. Pourriez-vous argumenter et en expliciter les raisons ? Et à partir de quels niveaux s'inquiéter ?

romain-lardy commented 4 years ago

Pour être exact, je me base sur ce que j’ai compris de son utilisation, en particulier : https://stats.stackexchange.com/questions/70679/which-variance-inflation-factor-should-i-be-using-textgvif-or-textgvif Si j’ai bien compris il permet d’avoir une estimation du VIF, comme si les facteurs étaient non corrélés entre eux. Pour le seuil, si on considère le carré du GVIF alors ça pourrait être les même que pour VIF. Est-ce-que je passe à côté de quelque chose d'important ?

briatte commented 4 years ago

Hello,

Je contribue parce que je suis l'activité du repo, même le temps me manque pour y contribuer (désolé Joseph… !).

GVIF^(1/(2*Df)) est, de ce que j'en saisis, une pénalisation du VIF pour le rendre comparable à travers des modèles de dimensions différentes. Son utilisation me semble à peu près aussi recommandable que tous les outils servant à comparer des modèles à partir de quantités exprimées dans des unités non naturelles -- c'est-à-dire peu recommandable si l'on travaille sur des variables dépendantes impossibles à prédire avec un haut degré de précision.

… à partir de quels niveaux s'inquiéter ?

Certains ouvrages (Agresti, je crois, mais sans garantie) donnent 10. Personnellement, je fronce les sourcils à partir de 5.

J'espère que vous allez tous bien.

larmarange commented 4 years ago

Si j'ai bien compris la discussion du lien, je crois comprendre que pour des variables catégorielles avec beaucoup de modalités, on obtient des GVIF élevés, souvent au delà de 5 ou 10, alors que c'est simplement lié au nombre de modalités.

Dès lors, l'indicateur GVIF^(1/(2*Df)) permet de prendre en compte ce nombre de modalités (via Df) et dans ce cas on commence à s'inquiéter lorsque cet indicateur est inférieur à 2 ou 3.

briatte commented 4 years ago

C'est ce que j'ai compris aussi, mais ça ne résout pas la question du seuil de tolérance, pénalisé (freiné) par ^(1/(2*Df)) ou pas (surtout que Df va être très différent selon les disciplines).

larmarange commented 4 years ago

Df ne vas pas être différent selon les discliplines. Df dépend du nombre de modalités dans une variable catégorielle.

briatte commented 4 years ago

… et ce chiffre va lui-même varier selon les disciplines. Idem pour les tailles d'échantillon.