larmarange / analyse-R

Introduction à l'analyse d'enquêtes avec R et RStudio
https://larmarange.github.io/analyse-R/
53 stars 40 forks source link

Chapitre récupération de données numériques (scraping) #38

Open briatte opened 9 years ago

briatte commented 9 years ago

J'ai un exemple ici (communiqués du FN), qui peut aussi servir pour le chapitre réseaux, d'ailleurs, et un autre exemple ici (comptes Twitter des eurodéputés). Les deux exemples sont courts et faciles, et basés sur des sites Internet qui, avec un peu de chance, devraient rester disponibles.

Un autre exemple ici, par Alexandre Hobeika et Étienne Ollion.

briatte commented 8 years ago

Je viens de commit un brouillon pour ce chapitre : 22b045ab4446bbdc62830fab765f182a65cfc30b -- mais ne suis pas certain que l'exemple soit le plus approprié. Let me know what you think :)

P.S. truc difficile à gérer pour ce chapitre : la gestion des données récupérées. Pour ne pas avoir à les scraper à chaque fois, est-ce qu'on peut les mettre en cache ? Le dossier fait < 200 KB.

larmarange commented 8 years ago

En tout cas j'aime bien le thème. Ce qui manque peut-être c'est de savoir à quoi pourrait nous servir les données collectées ensuite. Juste pour bien comprendre que le scraping c'est juste une étape de collecte avant de se lancer dans certaines analyses.

Faut-il présenter un peu plus ce qu'est le scraping ? Le type de choses qu'on peut récupérer sur Internet ? A quoi ca peut servir (par exemple analyses sociologiques, etc.)

Pas de soucis pour une mise en cache. Dans data\ ? Ou veux tu que ce soit recalculé lors d'un Build ?

Quelques détails :

Pour info, j'ai le warning suivant

d1$date = parse_date_time(d1$date, "%d %m %Y", locale = "fr_FR") %>%
  as.Date
Warning in Sys.setlocale("LC_TIME", locale):
la requête OS pour spécifier la localisation à
"fr_FR" n'a pas pu être honorée

Je suis sous Windows. Un truc à creuser ? Une note explicative ?

larmarange commented 8 years ago

Of course, je viens de tomber sur cette discussion https://github.com/hadley/lubridate/issues/194 Sous Windows il faut utiliser "french".

A mon avis, il faut faire un encadré pour expliquer ce point précis.

Faut-il adapter le code à coup de test sur Sys.info()["sysname"] ?

larmarange commented 8 years ago
if (Sys.info()["sysname"] == "Windows") {
  locale <- "french"
} else  {
  locale <- "fr_FR"
}
larmarange commented 8 years ago

Concernant la gestion du cache, toutes mes excuses, je n'avais pas compris que tu faisais référence au système de cache natif de knitr, ce qui effectivement est le plus simple car le système détecte tout seul s'il faut recalculer.

Du coup j'ai fait ce commit : https://github.com/larmarange/analyse-R/commit/50d3274325df5af2e6efc1473a2a2379cf381c2d

Quel que soit le fichier, le cache est est mis dans un sous-répertoire cache/nom-du-fichier/ et ce sous-répertoire n'est pas versionné. Ca accélère ce qui se passe sur ton propre PC mais le cache n'est pas propagé sur GitHub.

Je me demande si ça ne vaudrait pas le coup en fait d'activer le cache par défaut pour tous les chapitres (avec cache = TRUE dans les options communes). Ca serait un sacré gain de temps lors de la reconstruction de tout le site.

larmarange commented 8 years ago

Lien à ajouter dans une section Aller plus loin : http://data.hypotheses.org/516

briatte commented 8 years ago

Si le thème te plaît, le résultat du scrape dans ce cas précis peut être ceci :

C'est un réseau de co-occurrences des thèmes des trois blogs.

Deux autre exemples possibles pour le chapitre sont cités dans mon premier message. À voir :)

larmarange commented 8 years ago

Largement de qui faire un autre chapitre !!!

larmarange commented 2 years ago

@briatte Hello, tu vas bien ?

Pour info : https://github.com/larmarange/analyse-R/discussions/166#discussioncomment-2150121

Le site Confusionnisme.info n'est plus accessible, ce qui rends impossible de reproduire les différentes étapes du cours !

Veux-tu jeter un oeil à cela ?