Legilibre / legi.py

Outils de manipulation des archives LEGI (lois françaises)
56 stars 19 forks source link

Re-découpage des articles #34

Open Changaco opened 6 years ago

Changaco commented 6 years ago

Certains textes présents dans LEGI n'ont pas été découpés correctement. Par exemple un arrêté de 2015 contient un article "28 à 30".

Seb35 commented 6 years ago

Cela pose la question de l’éditorialisation de la base LEGI. Bien sûr, c’est évidemment ici une erreur de découpage, par contre ça serait bien de ne pas mélanger dans la base legi.py les données originelles des données fortement éditorialisées. Ici, par exemple, en cas de redécoupage, les articles n’auront pas de numéro LEGITEXT, donc devront être manipulés de façon différente. Un redécoupage nécessite aussi d’avoir des regex/une grammaire dédiés et donc faillibles dans une certaine mesure (on arrive sur le terrain du scraping).

Je vois comme solutions possibles : 1) créer une 2e base "éditorialisée", 2) créer une table spécifique documentée comme tel, 3) créer un type d’anomalie à remonter à la DILA.

J’ai extrait à partir de legi.py, sur cette page, les numéros d’articles vraiment bizarre. Cet article "28 à 30" y est, avec d’autres "xx à yy".

Changaco commented 6 years ago

Les "nouveaux" articles pourraient utiliser l'identifiant de celui dont ils ont été extraits et un suffixe additionnel, par exemple LEGIARTI000030515098-1, LEGIARTI000030515098-2 et LEGIARTI000030515098-3 pour les fameux articles 28 à 30.

C'est sûr que tout serait plus simple si la DILA corrigeait LEGI, mais je suis un peu sceptique sur ce sujet.