Closed KyllianBeguin closed 8 months ago
La bibliothèque snscrape n'est pas documentée... J'ai trouvé cet article sur Medium. Il date du 23 mars 2022, donc à voir.
😒 Pas de doc... Mais des tuto.
La bibliothèque snscrape n'est pas documentée... J'ai trouvé cet article sur Medium. Il date du 23 mars 2022, donc à voir.
Ne fonctionne pas, j'essaye cet autre article Medium
Toutes les personnes qui utilisent snscrape ont des erreurs 403... Voyez-donc >> https://github.com/JustAnotherArchivist/snscrape/issues/834
💩 C'est la merde, erreurs 403 dans tous les sens
Toutes les personnes qui utilisent snscrape ont des erreurs 403... Voyez-donc >> JustAnotherArchivist/snscrape#834
Ah, j'ai peut-être trouvé >> https://github.com/JustAnotherArchivist/snscrape/issues/846#issuecomment-1542062395
Ah, j'ai peut-être trouvé >> JustAnotherArchivist/snscrape#846 (comment)
Ça fonctionne ! 🚀
Je ferme cette issue :)
En lançant le pipeline aujourd'hui, j'ai remarqué qu'il crash
Il semblerait que ce soit à cause de snscrape qui rencontre un problème pour communiquer avec Twitter (Erreur 404)
Le lien ver l'issue snscrape : All Twitter scrapes are failing: blocked (404)
🧐 Solution identifiée : Utilisation de BetterTwitFix, une API qui peut scrap un tweet comme indiqué dans l'issue 996 Lien vers le projet : BetterTwitFix Lien vers le sample de code : Sample de code avec BetterTwitFix
BetterTwitFix fonctionne pour les Tweets récents et consomme un id de tweet. Il est possible de récupérer les ids via une recherche google grâce à la lib google
L'idée serait de faire :
1️⃣ Query via lib google : "réforme des retraites" site:twitter.com before:2023-11-09
2️⃣ Découpage url + stockage de l'id (devrait être en bout d'url)
3️⃣ Requête de https://api.vxtwitter.com/Twitter/status/{tweet_id}
4️⃣ Récupération des données
5️⃣ Stockage texte dans mongo
Objectif
Créer un pipeline qui va extraire les données depuis Twitter et les charger dans une base de données.
Ce que je propose