medialab / hyphe

Websites crawler with built-in exploration and control web interface
http://hyphe.medialab.sciences-po.fr/demo/
GNU Affero General Public License v3.0
328 stars 59 forks source link

Fetch stored HTML code from a corpus or a web entity. #446

Open g-arcas opened 2 years ago

g-arcas commented 2 years ago

Bonjour.

Est-il possible (et si oui, comment) d'extraire le code HTML des pages crawlées par Hyphe, que ce soit celui d'une page en particulier, d'une web entity ou, soyons fous, de tout un corpus ?

Yomguithereal commented 2 years ago

Alors cela dépend de si Hyphe était configuré au début pour conserver le HTML des pages crawlées (par défaut ce n'est pas le cas il me semble pour des raisons de stockage/performance): https://github.com/medialab/hyphe/blob/master/config-backend.env.example#L6

Si cette option est activée, le HTML des pages est stocké gzippé dans la mongodb de Hyphe et il est possible de les extraire facilement avec minet hyphe dump.

Sinon il est toujours possible d'utiliser la même commande minet pour récupérer les urls crawlées, et les retélécharger rapidement avec minet fetch, avec les évidents problèmes méthodologiques que cela comporte vu que les pages ont pu changer depuis le crawl Hyphe.

g-arcas commented 2 years ago

Merci pour la réponse !

Je vais voir si oui ou non Hyphe est configuré pour stocker le code HTML mais de tête je dirais non. L'option minet me semble parfaite (j'avais envisagé de créer une liste d'URL à passer à wget sinon).