IshtarTang / lofterSpider

lofter的爬虫,爬所有点过的喜欢/推荐/tag、爬取个人主页。l8和l10还没更新,跑不了,先别用
180 stars 21 forks source link

l13下载站内图片时,未验证状态码导致部分图片403错误 #21

Open Khrysoberyl opened 2 months ago

Khrysoberyl commented 2 months ago

可能是我个人网络环境问题,爬取这个tag时发现部分图片未能成功下载,得到的是一个283字节的文件,用文本编辑器打开后发现是403错误页。 image

经过测试,这是由于未验证图片下载请求返回的状态码导致的,而403错误则是因为请求头内没有合法Referer。奇怪的是用PC网页端则可以正常访问,返回同一张图片的另一个地址,不需要验证Referer也可以访问,机制未知。 目前的解决办法是在图片请求头内加上博客地址的Referer。建议也校验图片下载请求的状态码,以便在下载失败的时候通知用户。 image