dataforgoodfr / 12_taxobservatory

Repository containing scripts for gathering, parsing, filtering, and visualizing declared taxes data present in Country-by-country reports
https://dataforgood.fr/projects/eutaxobservatory
MIT License
10 stars 3 forks source link

Collecte - stock in one single folder and add company name #52

Closed giuali closed 7 months ago

giuali commented 7 months ago

Je suis dans main/collecte et j'utilise pdf_downloader.py pour les companies_names j'utilise "collecte/data/company_names.csv " issue 3: le fichiers ne correspondent pas au contenu, c'est peut être mieux:

Screenshot 2024-04-08 at 17 49 44

FS-CS commented 7 months ago

Fixé dans https://github.com/dataforgoodfr/12_taxobservatory/commit/1b4e7272f9eb133ef625ca8bc965b2a5baffa09b

Source du problème : l'API de Google retourne tous les résultats contenant le nom de l'entreprise donné dans la requête. Comme les rapports peuvent souvent citer d'autres compagnies pour des raisons diverses, cela créée beaucoup de "faux positifs" qui seront alors rangés dans le dossier de la compagnie citée en requête.

Solution : plutôt que d'utiliser le nom de compagnie donné pour la requête, on utilisé le nom de domaine de l'URL utilisée pour le téléchargement du fichier.