Closed vvyoko closed 1 year ago
顺便问一下,任务失败尝试的逻辑是什么. 感觉很容易失败的样子
由于当前没有多线程,我是同时开启多个程序去下载的 很多时候就单独其中一个弹出 代理连接错误还是啥的东西.. 明明其他的都在正常下载 失望任务失败时可以隔段时间尝试恢复一下,并且多次...
脚本下载文件会自动跳过已存在文件,故无需更新模式,直接全量爬取即可,几乎不会有流量/耗时的浪费
1.3.0版本已设置5次请求重试,不会那么容易任务失败了
move to #45 , 下版本将优化增量爬取逻辑以避免多余的爬取请求
19 的傻瓜版本吧
当确定某个博主已经抓取完毕后可以用这种模式批量或单个的更新 我刚刚查看了一下, 推文 id 大概是逐渐变大的 所以只要检测最后一个文件的id, 然后检测该推的时间 再下载后续的就行了.
甚至更傻瓜的可以只输入类似 update 命令 然后自动根据下载文件夹下的所有文件夹提取 文件夹名 (博主ID) 然后就可以不输入url 批量完成这个更新动作