ColinMaudry / sirene-ld

Transformation du répertoire SIRENE (CSV) au format RDF pour publication en Linked Data
The Unlicense
32 stars 10 forks source link

Identifier les PME #32

Open ColinMaudry opened 5 years ago

ColinMaudry commented 5 years ago

Dans les données d'août 2019, sur les 20 608 558 unité légales, 14 015 833 ne sont pas catégorisées (PME, ETI, GE).

Comptage effectué avec la commande suivante:

awk -F "," '$18 == "" {print $1;}' StockUniteLegale_utf8.csv | wc -l

Seules 6 488 205 sont identifiées comme étant des PME, alors qu'il est de notoriété publique qu'elles constituent la très grande majorité des entreprises.

awk -F "," '$18 == "PME" {print $1;}' StockUniteLegale_utf8.csv | wc -l

La définition des PME selon l'INSEE est inscrite ici : https://www.insee.fr/fr/metadonnees/definition/c1962

Dans les données SIRENE, nous disposons de la tranche de CA annuel (colonne TCA) et de la tranche du nombre d'employés (colonne TEF).

Même s'il manque la colonne bilan, je vais utiliser les colonnes TEF et TCA pour déterminer quelles unités légales sont des PME. Elles auront une classe distincte des PME identifiées par l'INSEE.

ColinMaudry commented 5 years ago

Articile intéressant qui dit que depuis 2019, deux des trois facteurs (bilan, CA, effectifs) ne doivent pas dépasser la limite.

https://www.economie.gouv.fr/cedef/definition-petites-et-moyennes-entreprises