Closed rmgomez22 closed 2 years ago
Le site web de canopé fait une redirection forcée vers une autre page dont l'URL est https://lesfondamentaux.reseau-canope.fr/international. C'est cette page dont tu vois les métadonnées extraites, et effectivement ça ne correspond pas à ta ressource.
irpia@irpia-front-dev:/tmp$ wget "https://lesfondamentaux.reseau-canope.fr/video/mathematiques/geometrie-du-plan/tri-quadrilateres-triangles/distinguer-triangle-et-quadrilatere" 2>&1 | grep Location:
Location: https://lesfondamentaux.reseau-canope.fr/international [following]
Si on interdit les redirections, le site web ne renvoie plus rien du tout. Sur mon PC en local, le phénomène ne se produit pas. Les suggestions sont pertinentes.
Le site met donc en oeuvre un mécanisme probablement dirigé contre les spam-bots. J'ai essayé de feindre un User-Agent "humain" (Firefox), cela ne change rien. C'est peut-être l'IP du serveur qui est identifiée comme potentiellement hostile et déclenche cette protection.
C'est une protection mise en oeuvre par le site. La page n'est pas éligible au scraping.
J'ai choisi une ressource pédagogique et il n'y a aucune suggestion qui m'intéresse Ce n'est pas un bug, c'est un constat
https://lesfondamentaux.reseau-canope.fr/video/mathematiques/geometrie-du-plan/tri-quadrilateres-triangles/distinguer-triangle-et-quadrilatere
Sur les types génériques j'aurais voulu vidéo. Sur les niveaux : primaire Le titre, j'ai uniquement la suggestion du titre de la page globale (collection) et pas du titre de la ressource. Pas de suggestion de description.