关于avbook遭遇反爬虫的解决方案。

guyueyingmu / avbook

AV 电影管理系统， avmoo , javbus , javlibrary 爬虫，线上 AV 影片图书馆，AV 磁力链接数据库，Japanese Adult Video Library,Adult Video Magnet Links - Japanese Adult Video Database

9.45k stars 2.03k forks source link

关于avbook遭遇反爬虫的解决方案。 #60

Open guyueyingmu opened 5 years ago

guyueyingmu commented 5 years ago

经过诸君这几天坚持不懈的爬取，目标网站终于升级了反爬虫机制，avbook爬虫现已失效。

新的反反爬虫方法暂不公开，后面新来的小伙伴暂时上不了车了，请耐心等待。

这里征集一下关于 avbook 数据库升级的方法与建议。

目前的想法是将增量数据同步到 github 或者 docker ，通过下载升级包进行数据库升级。

如果你有更好的建议欢迎告诉我。

weiyidu commented 5 years ago

是不是通过伪造IP方法解决？下载升级包太麻烦了吧，数据库版本最好能支持5.5，毕竟5.7要求硬件太高了。

peterrosetu commented 5 years ago

老哥骚的不行啊

noonefoundme commented 5 years ago

增量数据关键是没有步兵...

noonefoundme commented 5 years ago

希望能加入爬步兵的代码.我

865826021 commented 5 years ago

come on

netstat2016 commented 5 years ago

老板能否告知这个修改UA 位置在哪里么？

lsubaa commented 5 years ago

下载升级包进行数据库升级也不错，注意保护好个人隐私。

netstat2016 commented 5 years ago

下載包有個密碼

On 20/7/2019 at 12:12, miao wrote:

下载升级包进行数据库升级也不错，注意保护好个人隐私。

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/guyueyingmu/avbook/issues/60#issuecomment-513433984

leililei commented 5 years ago

数据公开就算了，还让大家超线程爬，现在好了，目标网站改成hashid，原来的36进制id没法自增了吧？想办法挂日本代理，直接爬fanza吧

afboyxiyang commented 5 years ago

增量更新包挺好的，方便，直接！

moozik commented 5 years ago

我之前一直都是单线程慢慢爬的，网站可能流量压力还没那么大，都是多线程肯定不好使建议有杀伤力的代码别公开，只公开一个用于访问的web服务，数据包另外下载，这样你的爬虫可以长久运行不会被封杀，没有编程基础的也不用倒腾爬虫了，直接下载增量包就可以，适当收费也不是不行

netstat2016 commented 5 years ago

難搞了呀哈哈

Sent using the mail.com mail app

On 21/7/2019 at 10:27, Leililei wrote:

数据公开就算了，还让大家超线程爬，现在好了，目标网站改成hashid，原来的36进制id没法自增了吧？想办法挂日本代理，直接爬fanza吧

-- You are receiving this because you commented. Reply to this email directly or view it on GitHub: https://github.com/guyueyingmu/avbook/issues/60#issuecomment-513513768

Sugimoto-Dev commented 5 years ago

自己一直维护着一个数据库, 好久了, 从0开始单线程爬取, 设置了爬取频率2.5秒, 30多万条全部爬完用了14天, 给人家服务器制造的压力非常小, 后期就每天增量一下. 后来发现这里有这么个项目, 您这可好, 1小时爬全站, 谁受得了? 我这想重新爬, 又害怕人家网站再随便改改, 我又白爬了. 太坑了. 过来发发牢骚, 别介意.

imhut commented 5 years ago

有个办法，就是你搞个WEB（类似资源站的东西），采集入库后，然后爬虫直接采集你的WEB即可，比数据库什么升级包增量包不是更好？可以保证永久性。。。当然，也支持一段时间公布爬虫，这样可以保持充分开源（最好有一定门槛），给要折腾的人玩，只想爬数据的直接用你的爬虫自动玩就行了。。。。好了，我还没开始，准备开始，一看7.19进来了这里。。。。当然，之前也打算开始的，自己也结合某车打算玩玩的，不过还没想好。。。