Open s-stay-y opened 1 year ago
一次性下载得太多了,服务器不让下了。过几天再用吧。 我用也是这个样子的。
明白了,谢谢。我还以为是爬虫网站无法返回下载链接导致的。毕竟我用浏览器手动点是可以正常下载的,证明IP什么的都没有被禁。但用脚本却不行,可以怎么优化之类的吗?
可以考虑改一下第39行的HEADER,或者准备多个HEADER。
HEADER = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"} 指的是这部分吗? python还没有学习到这个地方,我再搜搜了解一下
我通过浏览器获得了目前这个浏览器的User-Agent,替换使用之后也是没办法下载。看来简单的替换还是没办法忽悠对面服务器
请问一下有其他方法吗?从周日到现在大概三天时间,还是没法正常下载。刚刚只正常下载了三个文件之后貌似又被禁止下载了,自己手动浏览网页却是正常的
这我就不知道了……我的水平现在就这样了
明白,刚刚试了很多HEADER,也把浏览器内的header内容写进去,但还是一样的没法下载。确实不知道怎么弄了
刚刚再次测试,其实脚本已经能正常获取到下载地址,我把正常获取到的下载地址print出来,手动用IDM下载,是可以正常下载的。
我可能找到我遇到问题的地方了,下面说明一下。 我在尝试在脚本中加入调用IDM来下载,测试发现是可行的,因为脚本中已经获取了下载对应的链接,但如何代替脚本下载以及像脚本一样一次只下载两个文件就还不会弄。 在调用IDM的时候发现会下载到一个新的文件夹内,而当调用了IDM下载,脚本也可以正常下载了,而且下载的地方是IDM新建的文件夹内,而不是脚本中设置的默认路径。目测就是创建了新文件夹,才使得脚本能正常下载,可能不是爬虫被墙的缘故。因为文件名的问题,导致下载路径不对了。所以之前脚本没法正常下载。范例,如果我获取到的文件名称是Tun\'book Vol.008.rar。这样就会在原本默认路径上再新建Tun文件夹,然后文件名变成了'book Vol.008.rar。同时我看到脚本内其实有写把\给replace的,但实测貌似不起作用。 另外一下是调用IDM的脚本 from subprocess import call IDM = 'F:\Internet Download Manager\Bin\IDMan.exe' path = DOWNLOAD_PATH call([IDM, '/d', fileUrl, '/p', path, '/f', fileName, '/n'])
你好,想问问可能是什么问题导致一直重复restart download。我用浏览器测试过能正常打开mediafile的网址并能正常下载文件,但是用脚本就一直重复restartdownload,昨晚开始连续下载大概30个左右的链接,最后剩下4个的时候就无法下载了。今天重新下载也一直显示restart download。把所有的数据清空,重新独自输入链接也同样显示无法继续下载,请问可能是哪里除了问题吗?