SocialGouv / code-du-travail-numerique

Code du Travail Numérique
https://code.travail.gouv.fr
Apache License 2.0
107 stars 22 forks source link

Trouver une CCN à partir d'un SIRET #49

Closed jrduscher closed 5 years ago

jrduscher commented 6 years ago

L'idée: demander le siret/siren de l'établissement/entreprise; renvoyer une suggestion de convention collective applicable. Il faut une porte de sortie ( saisir CCN dans la liste par exemple) - la règle n'est pas systématiques, notamment en cas de multiactivité-

Une CCN est applicable à une entreprise lorsque l'actvité principale de l'entreprise correpsond à une des activités incluses dans le "champ d'application" de la CCN.

Les CCN font références dnas le champ d'application au APE /NAF codifications d'vaant 2008 et d'après 2008 (33chiffres, une lettre => 4 chiffes une lettre)

On peut se resservir de la base data.gouv (https://www.data.gouv.fr/fr/datasets/base-sirene-des-entreprises-et-de-leurs-etablissements-siren-siret/)

revolunet commented 6 years ago

BDCC ne permettrait-il pas d'extraire l'IDCC en fonction du SIRET ?

revolunet commented 6 years ago

Input (autocomplete) :

Output :

revolunet commented 6 years ago

@yfmadaule : a part SIRENE, y-a-t-il des APIs existantes qui pourraient nous aider ?

objectif : retrouver la CC à partir du numéro SIRET (ou adresse établissement)

revolunet commented 6 years ago

En regardant avec mon code APE, cela me propose 4 IDCC :

capture d ecran 2018-09-07 a 15 18 27

Dans ce cas, on proposerait les 4 choix à l'usager ?

https://socialgouv.github.io/conventions-collectives/

jrduscher commented 5 years ago

https://trello.com/c/TjLGj0Am/245-tester-le-lien-entre-siret-to-convention-collective-applicable

ClementChapalain commented 5 years ago

via @adipasquale :

Catherine LF nous a récupéré un précieux fichier de mapping SIRET -> IDCC (entre autres) j’ai rapidement étudié ce CSV de 800MB+ et 1M700+ lignes voici quelques analyses rapides :

  • le fichier n’est pas clean, comme ça peut être attendu sur ce genre de tailles. il y a des erreurs de formatting du CSV avec quelques lignes qui n’arrivent pas à être importées. il y a des erreurs de cohérences avec un certain nombre de lignes qui contiennent le SIRET 1 ou 0, ou bien un “dernier effectif” égal à France
  • je compte (seulement) 11% d’entreprises avec un effectif égal à 0 ou N/A
  • il y a ~20% de lignes avec l’IDCC 9999, j’imagine que c’est la valeur N/A
  • en excluant l’IDCC 9999, les IDCC les plus fréquents sont 1979, 1043, 1596, 1090 qui sont associés respectivement à 6%, 6%, 6% et 4% des entreprises
  • en excluant l’IDCC 9999, je compte (malheureusement) pres de 11% de SIRET ayant plusieurs IDCC attachés

pour reference, le ipython notebook utilisé pour ces analyses : https://gist.github.com/adipasquale/c4f43ba865822069dbfd678ba711887d

ClementChapalain commented 5 years ago

Proposition d'intégration : image

revolunet commented 5 years ago

Ou un seul champ qui gère les 2 cas ?

ClementChapalain commented 5 years ago

j'aime bien les 2 champs notamment car ça permet d'avoir deux placeholders différents et ça nous permettrait d'itérer rapidement sur le champs SIRET

aussi je pense que les 2 champs n'auront pas le même fonctionnement, par exemple dans le champs nom / identifiant on peut faire de l'autocomplete, alors que dans le champs SIRET (exemple : si je commence à taper un numéro de SIRET, ça ne sert à rien de m'autocomplete avec de l'IDCC)

revolunet commented 4 years ago

sujet données traité ici : https://github.com/SocialGouv/siret2idcc/