dataforgoodfr / offseason_missiontransition_simulateur

MIT License
0 stars 0 forks source link

Calcul du score de pertinence #8

Closed maximecharpentierdata closed 2 years ago

maximecharpentierdata commented 2 years ago

Proposition de calcul pour le score de pertinence

L'idée serait d'avoir un modèle capable de prendre en entrée un couple (aide, entreprise) et de donner en sortie un score de pertinence idéalement compris entre 0 et 1.

Constitution du dataset

On peut construire un tel dataset de la façon suivante :

  1. En se basant sur les données de l'ADEME, merger les aides ADEME (telles que présentées dans Aide Territoire) avec les données ADEME (attributions) donnant des détails sur l'entreprise qui a bénéficié de l'aide. On obtient alors tous les couples (aide, entreprise) pour lesquels la sortie du modèle devrait être 1 (on fixerait donc label=1 pour ces couples).
  2. Il est alors possible d'augmenter le dataset en prenant en compte tous les autres couples (aide, entreprise) et en leur attribuant un label<1
    1. On peut essayer avec 0 dans un premier temps, entraîner un premier modèle dessus et voir ce qu'il se passe
    2. Si les résultats ne sont pas concluants, on peut attribuer un score de base (qu'on peut alors voir comme une initialisation), en fonction des caractéristiques de l'entreprise à partir d'une analyse statistique sommaire

Constitution du modèle

Il faut réfléchir sur le modèle à mettre en place, il s'agit d'un problème de classification (donc plutôt simple en apparence) mixte entre du NLP (pour les descriptions/noms de l'aide) et de la donnée structurée (pour les infos précises).

Exploitation

La sortie d'un tel modèle pourrait être directement interprétée comme un score de pertinence sur le couple (entreprise, aide)

Difficultés

Dans la constitution du dataset je vois deux points de blocage :

Finalement la constitution du dataset présente un certain nombre d'enjeux, et mérite donc un chantier à lui seul.

maximecharpentierdata commented 2 years ago

Reprise du sujet de la rentrée, je suis toujours dubitatif sur les données à valoriser côté entreprise pour alimenter le modèle.