KyllianBeguin / M1-projet_etudes

Projet d'étude de la promotion M1 Big Data & IA 2022-2023. L'objectif est de pouvoir visualiser les sentiments des internautes à l'égard de la réforme des retraites.

1 stars 1 forks source link

PIPELINE-EXTRACT-TW - Création du pipeline #7

Closed KyllianBeguin closed 8 months ago

KyllianBeguin commented 1 year ago

Objectif

Créer un pipeline qui va extraire les données depuis Twitter et les charger dans une base de données.

Ce que je propose

Utiliser Python pour développer rapidement
Utiliser snscrape pour extraire les données depuis Twitter.

KyllianBeguin commented 1 year ago

😒 Pas de doc... Mais des tuto.

La bibliothèque snscrape n'est pas documentée... J'ai trouvé cet article sur Medium. Il date du 23 mars 2022, donc à voir.

KyllianBeguin commented 1 year ago

😒 Pas de doc... Mais des tuto.

La bibliothèque snscrape n'est pas documentée... J'ai trouvé cet article sur Medium. Il date du 23 mars 2022, donc à voir.

Ne fonctionne pas, j'essaye cet autre article Medium

KyllianBeguin commented 1 year ago

💩 C'est la merde, erreurs 403 dans tous les sens

Toutes les personnes qui utilisent snscrape ont des erreurs 403... Voyez-donc >> https://github.com/JustAnotherArchivist/snscrape/issues/834

KyllianBeguin commented 1 year ago

💩 C'est la merde, erreurs 403 dans tous les sens

Toutes les personnes qui utilisent snscrape ont des erreurs 403... Voyez-donc >> JustAnotherArchivist/snscrape#834

Ah, j'ai peut-être trouvé >> https://github.com/JustAnotherArchivist/snscrape/issues/846#issuecomment-1542062395

KyllianBeguin commented 1 year ago

Ah, j'ai peut-être trouvé >> JustAnotherArchivist/snscrape#846 (comment)

Ça fonctionne ! 🚀

KyllianBeguin commented 1 year ago

🟢 L'extraction et le chargement en base fonctionnent !

Je ferme cette issue :)

KyllianBeguin commented 10 months ago

🚨 Snscrape down

En lançant le pipeline aujourd'hui, j'ai remarqué qu'il crash
Il semblerait que ce soit à cause de snscrape qui rencontre un problème pour communiquer avec Twitter (Erreur 404)

Le lien ver l'issue snscrape : All Twitter scrapes are failing: blocked (404)

🧐 Solution identifiée : Utilisation de BetterTwitFix, une API qui peut scrap un tweet comme indiqué dans l'issue 996 Lien vers le projet : BetterTwitFix Lien vers le sample de code : Sample de code avec BetterTwitFix

KyllianBeguin commented 10 months ago

👀 Récupération des id de tweets récents

BetterTwitFix fonctionne pour les Tweets récents et consomme un id de tweet. Il est possible de récupérer les ids via une recherche google grâce à la lib google

L'idée serait de faire : 1️⃣ Query via lib google : "réforme des retraites" site:twitter.com before:2023-11-09 2️⃣ Découpage url + stockage de l'id (devrait être en bout d'url) 3️⃣ Requête de https://api.vxtwitter.com/Twitter/status/{tweet_id} 4️⃣ Récupération des données 5️⃣ Stockage texte dans mongo