7325156 / jjwxcNovelCrawler

使用python3爬虫下载晋江小说(可下载VIP章节,app源下载)【此项目仅供学习交流使用,严禁用于商业用途,请在24小时之内删除。】
283 stars 48 forks source link

新的防爬虫系统连Cookie也防了? #7

Closed 113000 closed 3 years ago

113000 commented 3 years ago

从前天开始试用这个编码了,这三天不管换了多少次Cookies都进入不了VIP文章(TXT和EPUB.py都试过),就算去掉timeOffset_o

尝试过的取Cookies方法: -client.py -IE document.cookie (my.jjwxc.net, www.jjwxc.net, m.jjwxc.net) -EDGE document.cookie (my.jjwxc.net, www.jjwxc.net, m.jjwxc.net) -Chrome Extension Edit this Cookie -魔爪 jjwxc.cfg (不过在魔爪用手机浏览模式,在忽视放爬虫系统的乱码的情况下,就还能下载vip)

Cookie Names: (一个个添加或减少也试过,也没用 /(ㄒoㄒ)/~~) -UM_distinctid -Hm_lvt_f73... -Hm_lpvt_f73... -JJEVER -JJSESS -token -gads -cfduid -testcookie -certification -CNZZDATA30079898

7325156 commented 3 years ago

我只用了requests.get函数,代码没考虑到这么多情况,或许是我本地的库不太行,生成的exe有问题,或许是你的库不太行,也有可能是网的问题,我这里用的是秦岭淮河地区的联通网,偶尔还会挂VPN。江湖传言北联通南电信,移动怎样我不予评价。或许换一下user-agent就行。程序什么的我暂时没法完善,但是网还是比较容易解决的。

113000 commented 3 years ago

把第三方库再下载了一次,把最新版py code重新下载一次 直接打开IE和EDGE,打开要下载的网页(在IE的Request Headers里找User-agent和Cookie [用document.cookie也试过])

在三个不同的浏览器的登陆界面和VIP文章内取Cookie

最后成功的是:

  1. 打开Chrome登陆入账号
  2. 打开要读的那本的VIP文章章节
  3. F12,在Network里找Request Header 里的user-agent (version 88 和 87的差别啊!(。﹏。))
  4. 然后再在Console里输入document.cookie,出来的那个Cookie才行 (Request Header里的Cookie不行)

终于吐血的成功了,这次真的令我回忆了下编程课做功课时怎么也找不到BUG的感觉,太惨了 >︿<

8starcrystal8 commented 3 years ago

额,最近我也有这个问题。在想是不是因为cookie残留问题,因为昨天我登出再登入,本来应该是不同cookie了,不过通过document.cookie 在Edge上好像还是显示前一次的cookie,结果根本用不了,爬不了v。后来我登出后再登入(还是用的Edge),这次勾选了能够连续一个月登入的选项,这次document.cookie 出现的cookie就不同了,试了下也能爬v了。

改:头痛,今天又不能行了。改了几个cookie,Chrome的终于能用了...试了clear cookie和cache,好像没用处,得到的cookie似乎还是不能够用 (不过今天网络似乎不怎么样),下次clear的时候我试试是不是网络问题。

113000 commented 3 years ago

额,最近我也有这个问题。在想是不是因为cookie残留问题,因为昨天我登出再登入,本来应该是不同cookie了,不过通过document.cookie 在Edge上好像还是显示前一次的cookie,结果根本用不了,爬不了v。后来我登出后再登入(还是用的Edge),这次勾选了能够连续一个月登入的选项,这次document.cookie 出现的cookie就不同了,试了下也能爬v了。

改:头痛,今天又不能行了。改了几个cookie,Chrome的终于能用了...试了clear cookie和cache,好像没用处,得到的cookie似乎还是不能够用 (不过今天网络似乎不怎么样),下次clear的时候我试试是不是网络问题。

cookie出了什么错我不确定啦,不过每次登陆的时候都要勾选了能够连续一个月登入的选项。 按照我的经验,平时登陆晋江用哪个浏览器就一定要用那个浏览器的User-agent和cookie。因为当你跟平时一样进入晋江网站浏览时,前一个不在同一个浏览器(换句话说要重新登陆一次)的cookie就会过期。例如mozhua用的是m.jjwxc.net的cookie,跟网站的好像不用同一个cookie,也不会过期(一个月内),只要不在手机里打开。不过这个py用的是网页版,所以最好用同一个浏览器的cookie。我平时就用chrome的,所以估计这才是我最后成功的原因

8starcrystal8 commented 3 years ago

cookie出了什么错我不确定啦,不过每次登陆的时候都要勾选了能够连续一个月登入的选项。 按照我的经验,平时登陆晋江用哪个浏览器就一定要用那个浏览器的User-agent和cookie。因为当你跟平时一样进入晋江网站浏览时,前一个不在同一个浏览器(换句话说要重新登陆一次)的cookie就会过期。例如mozhua用的是m.jjwxc.net的cookie,跟网站的好像不用同一个cookie,也不会过期(一个月内),只要不在手机里打开。不过这个py用的是网页版,所以最好用同一个浏览器的cookie。我平时就用chrome的,所以估计这才是我最后成功的原因

哦!我没试过mozhua。不过我试过用JJ wap版的,结果wap那里一登录,我的网页版刷新立刻显示退出了。看来这两个可能是用的同一个cookie/这两个只能有一个作为在使用的cookie。