dataforgoodfr / CarbonBombs

17 stars 0 forks source link

Problem on Operators columns #83

Closed mnicolleUTC closed 1 year ago

mnicolleUTC commented 1 year ago

Après discussion orale : sujet ULTRA prio - c'est l'erreur la plus urgente à corriger. on rationnalise ces données qui ont deux problèmes :

Solution - on créé deux colonnes :

Ensuite : bien ajouter l'explication dans les métadatas de comment chaque colonne est calculée.


On some CB, the ownership is taken from ChatGPT source (data_sources/ChatGPT) but the columns is named Operators_source_GEM which implies all operators should be taken from GEM. We must review this point by either adding a column describing the source of operators column or delete all chatGPT data for operator column.

See Slack discussion datacarbonbombsconsolidation :

Hello, On a eu une question des journalistes a l'instant au sujet de 2 nouveaux projets de Saudi Aramco (cf ci dessous). Ça m'a fait réaliser que ces 2 projets n'apparaissent pas sur la map quand on filtre par Saudi Aramco, et pas attribué non plus à Saudi Aramco dans l'onglet connexion_carbonbombs_company, alors qu'on fait bien apparaître Saudi Aramco comme opérateur (source GEM) dans l'onglet carbon bombs information. Est-ce que vous avez une idée de ce qui peut expliquer cela ? (peut-être une bête erreur de manip de la base de la part des journalistes et moi). (après sur le fond j'ai zéro doute sur le fait que c'est bien piloté par Saudi Aramco qui a un monopole d'exploitation sur les ressources en hydrocarbures de l'Arabie Saoudite) (le message des journalistes : "Bonjour à tous, j'espère que vous allez bien. Nous regardons les différents projets attribués à Saudi Aramco dans la base de données et nous interrogeons sur deux d'entre eux: "Central Arabian Offshore" et "Central Arabian Onshore". Savez vous exactement à quoi ils font référence et le degré de certitude sur le fait qu'ils sont pilotés par Saudi Aramco ? Merci beaucoup")


Salut @Oriane Wegner , je ne t’avais pas oublié et j’ai la rep à ta question. En fait pour les entités que tu as demandé l’ownership de la company est pris depuis ChatGPT (voir les deux screen shot en jaune data_cleaned/carbon_bombs_informations en orange data_sources/Data_chatGPT_carbon_bombs.) Je ne me souviens plus si c’est voulu je n’avais pas trop gérer le remplissage du tableau avec les data_sources ChatGPT, de mémoire c’est @Gaël PENESSOT qui s’en était occupé mais ca fait longtemps je ne suis pas sur d’avoir les idées claires la dessus En soit pas nécessairement choquant mais il va falloir que l’on fasse une colonne ownership source car la le nom de la colonne c’est Operators_source_GEM et ça ce n’est pas cohérent. La colonne devrait être nommé Operators et on devrait avoir en plus une colonne Operators_source. Je crée un ticket la dessus, (je vais pas trop avoir le temps de faire les modifs dans le prochaines semaines). Si Gaelle toujours chaud du projet on pourra lui demander de jeter un coup d’oeil à la rentrée si ca vous vas :visage_légèrement_souriant: ?

louwelgryn commented 1 year ago

yo @mnicolleUTC pour suivi - j'ai mis à jour en haut avec ce qu'on s'est dit :)

mnicolleUTC commented 1 year ago

Note taking : Main function to correct = complete_GEM_with_ChatGPT() and add_chat_GPT_data(df) ????? on carbon_bomb.py --> Why two function with same use in the main function create_carbon_bombs_table() First function = add_chat_GPT_data(df_carbon_bombs) L1310 --> The most critical one

Second step L1367 :

Add Chat GPT informations when needed

df_carbon_bombs = get_information_from_GEM(df_carbon_bombs) --> Function to retrieve start_year and description from GEM when available
df_carbon_bombs = complete_GEM_with_ChatGPT(df_carbon_bombs) --> Function that complete those 2 columns with infos from ChatGPT when start year and descrition are not available 

Function related = load_chatGPT_database()

mnicolleUTC commented 1 year ago

At the end it only seem to be a confusion du to column title. We rename Operators_source_GEM column by Operators We rename Latitude_longitude_operator_source by Operator_latitude_longitude_source in order to insist on the fact that operators is concerned by this column.