KyllianBeguin / M1-projet_etudes

Projet d'étude de la promotion M1 Big Data & IA 2022-2023. L'objectif est de pouvoir visualiser les sentiments des internautes à l'égard de la réforme des retraites.
1 stars 1 forks source link

PIPELINE-EXTRACT-TW - Création du pipeline #7

Closed KyllianBeguin closed 8 months ago

KyllianBeguin commented 1 year ago

Objectif

Créer un pipeline qui va extraire les données depuis Twitter et les charger dans une base de données.

Ce que je propose

KyllianBeguin commented 1 year ago

😒 Pas de doc... Mais des tuto.

La bibliothèque snscrape n'est pas documentée... J'ai trouvé cet article sur Medium. Il date du 23 mars 2022, donc à voir.

KyllianBeguin commented 1 year ago

😒 Pas de doc... Mais des tuto.

La bibliothèque snscrape n'est pas documentée... J'ai trouvé cet article sur Medium. Il date du 23 mars 2022, donc à voir.

Ne fonctionne pas, j'essaye cet autre article Medium

KyllianBeguin commented 1 year ago

💩 C'est la merde, erreurs 403 dans tous les sens

Toutes les personnes qui utilisent snscrape ont des erreurs 403... Voyez-donc >> https://github.com/JustAnotherArchivist/snscrape/issues/834

KyllianBeguin commented 1 year ago

💩 C'est la merde, erreurs 403 dans tous les sens

Toutes les personnes qui utilisent snscrape ont des erreurs 403... Voyez-donc >> JustAnotherArchivist/snscrape#834

Ah, j'ai peut-être trouvé >> https://github.com/JustAnotherArchivist/snscrape/issues/846#issuecomment-1542062395

KyllianBeguin commented 1 year ago

Ah, j'ai peut-être trouvé >> JustAnotherArchivist/snscrape#846 (comment)

Ça fonctionne ! 🚀

KyllianBeguin commented 1 year ago

🟢 L'extraction et le chargement en base fonctionnent !

image

Je ferme cette issue :)

KyllianBeguin commented 10 months ago

🚨 Snscrape down

En lançant le pipeline aujourd'hui, j'ai remarqué qu'il crash
Il semblerait que ce soit à cause de snscrape qui rencontre un problème pour communiquer avec Twitter (Erreur 404)

Le lien ver l'issue snscrape : All Twitter scrapes are failing: blocked (404)

🧐 Solution identifiée : Utilisation de BetterTwitFix, une API qui peut scrap un tweet comme indiqué dans l'issue 996 Lien vers le projet : BetterTwitFix Lien vers le sample de code : Sample de code avec BetterTwitFix

KyllianBeguin commented 10 months ago

👀 Récupération des id de tweets récents

BetterTwitFix fonctionne pour les Tweets récents et consomme un id de tweet. Il est possible de récupérer les ids via une recherche google grâce à la lib google

L'idée serait de faire : 1️⃣ Query via lib google : "réforme des retraites" site:twitter.com before:2023-11-09 2️⃣ Découpage url + stockage de l'id (devrait être en bout d'url) 3️⃣ Requête de https://api.vxtwitter.com/Twitter/status/{tweet_id} 4️⃣ Récupération des données 5️⃣ Stockage texte dans mongo

image