Open guyueyingmu opened 5 years ago
是不是通过伪造IP方法解决? 下载升级包太麻烦了吧,数据库版本最好能支持5.5,毕竟5.7要求硬件太高了。
老哥骚的不行啊
增量数据关键是没有步兵...
希望能加入爬步兵的代码.我
come on
老板能否告知 这个修改UA 位置在哪里么?
下载升级包进行数据库升级也不错,注意保护好个人隐私。
下載包有個密碼
On 20/7/2019 at 12:12, miao wrote:
下载升级包进行数据库升级也不错,注意保护好个人隐私。
-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/guyueyingmu/avbook/issues/60#issuecomment-513433984
数据公开就算了,还让大家超线程爬,现在好了,目标网站改成hashid,原来的36进制id没法自增了吧?想办法挂日本代理,直接爬fanza吧
增量更新包挺好的,方便,直接!
我之前一直都是单线程慢慢爬的,网站可能流量压力还没那么大,都是多线程肯定不好使 建议有杀伤力的代码别公开,只公开一个用于访问的web服务,数据包另外下载,这样你的爬虫可以长久运行不会被封杀,没有编程基础的也不用倒腾爬虫了,直接下载增量包就可以,适当收费也不是不行
難搞了呀哈哈
Sent using the mail.com mail app
On 21/7/2019 at 10:27, Leililei wrote:
数据公开就算了,还让大家超线程爬,现在好了,目标网站改成hashid,原来的36进制id没法自增了吧?想办法挂日本代理,直接爬fanza吧
-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/guyueyingmu/avbook/issues/60#issuecomment-513513768
自己一直维护着一个数据库, 好久了, 从0开始单线程爬取, 设置了爬取频率2.5秒, 30多万条全部爬完用了14天, 给人家服务器制造的压力非常小, 后期就每天增量一下. 后来发现这里有这么个项目, 您这可好, 1小时爬全站, 谁受得了? 我这想重新爬, 又害怕人家网站再随便改改, 我又白爬了. 太坑了. 过来发发牢骚, 别介意.
有个办法,就是你搞个WEB(类似资源站的东西),采集入库后,然后爬虫直接采集你的WEB即可,比数据库什么升级包增量包不是更好?可以保证永久性。。。 当然,也支持一段时间公布爬虫,这样可以保持充分开源(最好有一定门槛),给要折腾的人玩,只想爬数据的直接用你的爬虫自动玩就行了。。。。 好了,我还没开始,准备开始,一看7.19进来了这里。。。。当然,之前也打算开始的,自己也结合某车打算玩玩的,不过还没想好。。。
公众号也被请去喝茶了吗?没上车的我表示没有开上车呀
在这里,我建议还是不要用公众号,毕竟这东西犯禁,建议移动到电报比较好,增量包其实是个不错的方案,对于只想获取资源的人来说,我今天微博上看到有人推荐这个源码,还没来得及爬资源,但是我还是把源码下载下来学习一下,毕竟你这爬取设计规则还是很好的。
希望老哥可以继续开源技术,另外,你可以放一下打赏二维码,让大家多多少少可以支持一下。开源万岁。
数据包升级可以,方便
当初我一下午爬完了30W数据。。现在后悔了。。。早知道不删库了。
建议docker,简直方便
目测是把人家网站爬崩了,500个并发,10来个人同时爬人家服务器都可能吃不消。 项目有意思,表示去会会人家的反爬策略
没上车的懊恼不已
没上车的懊恼不已
别懊恼啊,不是有win的压缩包么。。
数据包可以单独给一个下载,不然 下载那么大的包 结果只用上了数据库
github上同步更新吧
建议单独更新数据包,再加上单线程爬取,在数据包的基础上慢速更新到最新日期是一个比较不错的选择
建议 docker
没上车的懊恼不已XD
单独更新数据包好,毕竟有些同学对代码不是很熟,肯定会有重复爬取的情况出现。
或者移到ZeroNet?
这么多人爬网站肯定受不住,建议在GitHub上发布数据包,这样大家只需要从不限流的GitHub下载数据包
擦~来晚了
php不大会用,不如用python搞一个
来晚了~~
经过诸君这几天坚持不懈的爬取,目标网站终于升级了反爬虫机制,avbook爬虫现已失效。
新的反反爬虫方法暂不公开,后面新来的小伙伴暂时上不了车了,请耐心等待。
这里征集一下关于 avbook 数据库升级的方法与建议。
目前的想法是将增量数据同步到 github 或者 docker ,通过下载升级包进行数据库升级。
如果你有更好的建议欢迎告诉我。