L'idée serait d'avoir un modèle capable de prendre en entrée un couple (aide, entreprise) et de donner en sortie un score de pertinence idéalement compris entre 0 et 1.
Constitution du dataset
On peut construire un tel dataset de la façon suivante :
En se basant sur les données de l'ADEME, merger les aides ADEME (telles que présentées dans Aide Territoire) avec les données ADEME (attributions) donnant des détails sur l'entreprise qui a bénéficié de l'aide. On obtient alors tous les couples (aide, entreprise) pour lesquels la sortie du modèle devrait être 1 (on fixerait donc label=1 pour ces couples).
Il est alors possible d'augmenter le dataset en prenant en compte tous les autres couples (aide, entreprise) et en leur attribuant un label<1
On peut essayer avec 0 dans un premier temps, entraîner un premier modèle dessus et voir ce qu'il se passe
Si les résultats ne sont pas concluants, on peut attribuer un score de base (qu'on peut alors voir comme une initialisation), en fonction des caractéristiques de l'entreprise à partir d'une analyse statistique sommaire
Constitution du modèle
Il faut réfléchir sur le modèle à mettre en place, il s'agit d'un problème de classification (donc plutôt simple en apparence) mixte entre du NLP (pour les descriptions/noms de l'aide) et de la donnée structurée (pour les infos précises).
Exploitation
La sortie d'un tel modèle pourrait être directement interprétée comme un score de pertinence sur le couple (entreprise, aide)
Difficultés
Dans la constitution du dataset je vois deux points de blocage :
le merge entre les données ADEME et Aide-Territoires (pas de clé, premier travail d'explo de Sam)
le calcul des labels dans l'augmentation du dataset (nécessitera une première exploration de stats descriptive, en ne prenant en compte que les données structurées par exemple)
Finalement la constitution du dataset présente un certain nombre d'enjeux, et mérite donc un chantier à lui seul.
Proposition de calcul pour le score de pertinence
L'idée serait d'avoir un modèle capable de prendre en entrée un couple (aide, entreprise) et de donner en sortie un score de pertinence idéalement compris entre 0 et 1.
Constitution du dataset
On peut construire un tel dataset de la façon suivante :
label=1
pour ces couples).label<1
Constitution du modèle
Il faut réfléchir sur le modèle à mettre en place, il s'agit d'un problème de classification (donc plutôt simple en apparence) mixte entre du NLP (pour les descriptions/noms de l'aide) et de la donnée structurée (pour les infos précises).
Exploitation
La sortie d'un tel modèle pourrait être directement interprétée comme un score de pertinence sur le couple (entreprise, aide)
Difficultés
Dans la constitution du dataset je vois deux points de blocage :
Finalement la constitution du dataset présente un certain nombre d'enjeux, et mérite donc un chantier à lui seul.