Restriction aux communes de plus de 10 000 habs pas choquantes, à condition de l'assumer, mais c'est pas un problème pour le moment. Il faudra néanmoins penser à des tests de robustesse plus tard ;
Variable instrumentale : chercher du côté de la politique, c'est la seule qui peut fonctionner éventuellement, notamment côté Municipale 2008 ;
ATTENTION : virer la pondération dans la reg lin, ou bien la justifier ===> Ok ça change pas grand chose ouf
Procédure B-H : quid du cas où les pvalues sont corrélées ? Sinon il faut passer par Bonferroni ====> p-values doivent satisfaire la condition de dépendance positive “PRDS”
La condition d'exegonéité de Z ne choque pas : le fait de regarder l'évolution plutôt que la valeur permet d'inclure un genre d'effet fixe par IRIS, et donc renforce notre choix ;
Notation : changer Y_i par \Delta Y_i
Ivreg = Bien regarder l'intervalle de confiance, la variance ==> Lien avec la corrélation spatiale des IRIS, on n'a pas des observations indépendante. Faire des tests de robustesses à partir de ça
Test W-H : en fait pas hyper pertinent, car il teste l'endogénéité de l'estimateur, mais sous l'hypothèse des deux conditions de Z, donc bof...
Assumer l'explication par la gentrification/migration ==> On peut le vérifier avec l'âge en Y ?
Discuter avec Corentin Trevien ?
Regarder pour faire une nouvelle variable instrumentale Z ==> Les données de Piketty sur les résultats des législatives 2007 par commune
Regarder test de Fisher sur la première régression 2SLS (on veut <10 ?), même si la règle est un peu controversée ;
Instrument ELECTION : En fait, le % de voix opposition est plutôt une va de contrôle ==> Regarder plutôt si une commune a eu une opposition entre 48% et 52%.
Nb de députés au total ? Problème : peu de points
ELECTION : passer à un T continu ?
Si résultats différents : ne pas parler d'incohérence, mais d'effets hétérogènes ==> 2 variables instrumentales Z = 2 moyennes sur 2 populations de compliers différentes
Regarder notice Piketty pour 115% de voix à Neuilly
Autocorrélation spatiale : en première approche, faire les régressions en clusterisant par commune
Mettre le % de voix pour l'OPPO en variable de contrôle ?
Se restreindre toujours aux communes $50 \% \pm \varepsilon$ ;
Mettre le pourcentage de voix de la majorité en variable de contrôle ;
Mettre Z l'indicatrice de : la majorité a eu plus de $50 \% $
Si on obtient la même chose entre les deux variables : les effets sont sans doute homogènes
Sinon : la diff entre les deux vient de la population des compliers, et qui sont sans doute différentes, on a donc des effets hétérogènes
ATTENTION : interprétation des régressions $\Delta Y/Y_{2012}$, comment interpréter le coefficient ? Pas en évolution relative... Regarder avec $\log(Y)$ ? Ou $\log(\Delta Y)$ ?
Autocorrélation spatiale : construire une matrice de variance-covariance de la fonction de la distance entre 2 IRIS pour toutes les paires d'IRIS. La fonction peut avoir la forme $\alpha/Dist + \beta/Dist^2$, et on estime $\alpha$ et $\beta$ en fonction des résidus des régressions.
Ici quelques notes sur les séances à l'Ensae