Cendres06 / Veil_Lifter

Mémoire et projet de module python servant à récupérer les textes de la branche francophone et à effectuer plusieurs opérations statistiques.
GNU General Public License v3.0
2 stars 0 forks source link

textes en double lors de la récupération des annexes #3

Open Cendres06 opened 2 years ago

Cendres06 commented 2 years ago

En examinant les bases de données produites automatiquement, j'ai remarqué que toutes les annexes étaient en double, d'où leur répétition dans les fichiers .txt produits par Veil_Lifter.

Le problème vient visiblement de la fonction "recup-toutes-pages-avec-tag()" dans "scrapping_bs4.py". J'ai esquivé le problème en castant le résultat de cette fonction en un set, puis retour en une liste sans plus fouiller. Certes ça fonctionne, mais ça ne corrige pas le problème à la source.

J'ai reproduit la base de donnée des annexes et celle des fragments par sécurité.

En stand-by pour le moment.