Closed giuali closed 7 months ago
Fixé dans https://github.com/dataforgoodfr/12_taxobservatory/commit/1b4e7272f9eb133ef625ca8bc965b2a5baffa09b
Source du problème : l'API de Google retourne tous les résultats contenant le nom de l'entreprise donné dans la requête. Comme les rapports peuvent souvent citer d'autres compagnies pour des raisons diverses, cela créée beaucoup de "faux positifs" qui seront alors rangés dans le dossier de la compagnie citée en requête.
Solution : plutôt que d'utiliser le nom de compagnie donné pour la requête, on utilisé le nom de domaine de l'URL utilisée pour le téléchargement du fichier.
Je suis dans main/collecte et j'utilise pdf_downloader.py pour les companies_names j'utilise "collecte/data/company_names.csv " issue 3: le fichiers ne correspondent pas au contenu, c'est peut être mieux: