irplab / irpia

0 stars 0 forks source link

Ressource sans suggestions intéressantes #137

Closed rmgomez22 closed 2 years ago

rmgomez22 commented 2 years ago

J'ai choisi une ressource pédagogique et il n'y a aucune suggestion qui m'intéresse Ce n'est pas un bug, c'est un constat

https://lesfondamentaux.reseau-canope.fr/video/mathematiques/geometrie-du-plan/tri-quadrilateres-triangles/distinguer-triangle-et-quadrilatere

Sur les types génériques j'aurais voulu vidéo. Sur les niveaux : primaire Le titre, j'ai uniquement la suggestion du titre de la page globale (collection) et pas du titre de la ressource. Pas de suggestion de description.

jdpro commented 2 years ago

Le site web de canopé fait une redirection forcée vers une autre page dont l'URL est https://lesfondamentaux.reseau-canope.fr/international. C'est cette page dont tu vois les métadonnées extraites, et effectivement ça ne correspond pas à ta ressource.

irpia@irpia-front-dev:/tmp$ wget "https://lesfondamentaux.reseau-canope.fr/video/mathematiques/geometrie-du-plan/tri-quadrilateres-triangles/distinguer-triangle-et-quadrilatere" 2>&1 | grep Location:
Location: https://lesfondamentaux.reseau-canope.fr/international [following]

Si on interdit les redirections, le site web ne renvoie plus rien du tout. Sur mon PC en local, le phénomène ne se produit pas. Les suggestions sont pertinentes. quadrilatere

Le site met donc en oeuvre un mécanisme probablement dirigé contre les spam-bots. J'ai essayé de feindre un User-Agent "humain" (Firefox), cela ne change rien. C'est peut-être l'IP du serveur qui est identifiée comme potentiellement hostile et déclenche cette protection.

jdpro commented 2 years ago

C'est une protection mise en oeuvre par le site. La page n'est pas éligible au scraping.