c4software / python-sitemap

Mini website crawler to make sitemap from a website.
GNU General Public License v3.0
366 stars 110 forks source link

URL en erreur 404 affichée dans le sitemap #5

Closed sebclick closed 12 years ago

sebclick commented 12 years ago

sebclick$ python3 main.py --config config.fb6.json ... DEBUG:root:http://www.freebox-v6.fr//www.mediawiki.org/ ==> HTTP Error 404: Not Found ... et dans le sitemap.xml, je retrouve la ligne suivante :

http://www.freebox-v6.fr//www.mediawiki.org/
sebclick commented 12 years ago

Trouvé : les urls sont écrites dans le sitemap dès qu'elles sont reperées sur une page. Du coup, j'ai déplacé l'écriture lors du parse pour être sur que c'est une page qui répond 200 OK. Je fais un pull request pour prise en compte :)