Mariehf64 / fev23cda_french_industry

Project for Data Analist training
MIT License
0 stars 0 forks source link

all_content_2014.to_csv et geo_2014.csv #3

Open vivienrenouf opened 1 year ago

vivienrenouf commented 1 year ago

Marie-Hélène,

J'ai tenté d'utiliser tes nouveaux csv.

J'ai les problèmes suivants :

image

Mariehf64 commented 1 year ago

Bonjour,

Oui j'ai pensé à EU_circo, je vais regarder si je peux le reconstruire, en 2014 les données etaient sous forme de fichier .txt avec des noms différent la plupart du temps. J'ai essayé de conserver les mêmes mais supprimé les doublons. Quels noms de variables te posent problème ? Je peux les modifier si tu en as besoin.

Marie-Helene

Le mar. 18 avr. 2023, 23:12, vivienrenouf @.***> a écrit :

Marie-Hélène,

J'ai tenté d'utiliser tes nouveaux csv.

J'ai les problèmes suivants :

  • la variable EU_circo du fichier geo initial a disparu. Cette variable reprend les grandes régions, ce qui me semblait intéressant pour avoir une vue "10.000 feets" des inégalités. Dans mon notebook Fonction_analyse_France (branche Viz-Entreprises) qui est actuellement "en construction", j'ai déjà codé pas mal de choses autour de cette variable :

[image: image] https://user-images.githubusercontent.com/129729105/232904977-8cf8650c-01e9-4c34-8c79-42f6ac3adc57.png

  • par ailleurs, le fait de renommer les variables directement dans des fichiers que nous pourrions nous réapproprier comme source a pour conséquence que je dois modifier de nombreuses lignes de mon côté pour réadapter mon code. Ne serait-il pas mieux, pour le moment, de ne pas renommer les variables afin que nous restions sur la même base ? Bien entendu, je pense qu'il sera nécessaire de les renommer mais j'imaginais plus cela lors de l'étape de modélisation et donc après les missions d'exploration.

— Reply to this email directly, view it on GitHub https://github.com/Mariehf64/fev23cda_french_industry/issues/3, or unsubscribe https://github.com/notifications/unsubscribe-auth/AWVGMCVJGPPGG27PQSMNNSTXB37TLANCNFSM6AAAAAAXDFYKKQ . You are receiving this because you are subscribed to this thread.Message ID: @.***>

vivienrenouf commented 1 year ago

Hello Marie-Hélène,

Pour le moment ,j'ai utilisé les variables des fichiers geo et ets. Je renomme éventuellement ces variables dans le cadre des fonctions que j'essaye de coder. Mais du coup, tous mes notebooks se basent initialement sur les noms originaux des variables du premier set de data. Après, je peux prendre le temps de modifier mais ce qui me fait peur, c'est de devoir modifier cela régulièrement au fur et à mesure qu'on retravaille nos sources. Peut-être qu'une idée serait d'avoir une source "brute", c'est à dire sans renommer les variables de l'insee, et une source retravaillée, pour les nouveaux travaux.

Mariehf64 commented 1 year ago

Tu peux utiliser header=0 et passer la liste des colonnes dans names dans read_csv comme ça tu importes avec les nom que tu veux.

Le mer. 19 avr. 2023, 10:13, vivienrenouf @.***> a écrit :

Hello Marie-Hélène,

Pour le moment ,j'ai utilisé les variables des fichiers geo et ets. Je renomme éventuellement ces variables dans le cadre des fonctions que j'essaye de coder. Mais du coup, tous mes notebooks se basent initialement sur les noms originaux des variables du premier set de data. Après, je peux prendre le temps de modifier mais ce qui me fait peur, c'est de devoir modifier cela régulièrement au fur et à mesure qu'on retravaille nos sources. Peut-être qu'une idée serait d'avoir une source "brute", c'est à dire sans renommer les variables de l'insee, et une source retravaillée, pour les nouveaux travaux.

— Reply to this email directly, view it on GitHub https://github.com/Mariehf64/fev23cda_french_industry/issues/3#issuecomment-1514320132, or unsubscribe https://github.com/notifications/unsubscribe-auth/AWVGMCVF62OHVE2XECVBWYDXB6NDBANCNFSM6AAAAAAXDFYKKQ . You are receiving this because you commented.Message ID: @.***>

Mariehf64 commented 1 year ago

df2_2014 = pd.read_excel('codes_geo_2014.xlsx',dtype='str',header=0,names=['CODGEO','code_région','numéro_département','nom_commune','nom_région','nom_département','chef.lieu_region'])

J'ai testé ça marche.

Je vais reconstruire EU_circo/

Le mer. 19 avr. 2023 à 10:13, vivienrenouf @.***> a écrit :

Hello Marie-Hélène,

Pour le moment ,j'ai utilisé les variables des fichiers geo et ets. Je renomme éventuellement ces variables dans le cadre des fonctions que j'essaye de coder. Mais du coup, tous mes notebooks se basent initialement sur les noms originaux des variables du premier set de data. Après, je peux prendre le temps de modifier mais ce qui me fait peur, c'est de devoir modifier cela régulièrement au fur et à mesure qu'on retravaille nos sources. Peut-être qu'une idée serait d'avoir une source "brute", c'est à dire sans renommer les variables de l'insee, et une source retravaillée, pour les nouveaux travaux.

— Reply to this email directly, view it on GitHub https://github.com/Mariehf64/fev23cda_french_industry/issues/3#issuecomment-1514320132, or unsubscribe https://github.com/notifications/unsubscribe-auth/AWVGMCVF62OHVE2XECVBWYDXB6NDBANCNFSM6AAAAAAXDFYKKQ . You are receiving this because you commented.Message ID: @.***>

vivienrenouf commented 1 year ago

c'est une solution :-D Merci