longxiaofei / spider-BaiduIndex

data sdk for baidu Index
MIT License
749 stars 229 forks source link

我发现了一个百度指数防爬取的招数 #15

Closed huangzhaor closed 4 years ago

huangzhaor commented 4 years ago

image image 就是本来全图是都有数据的,但是随着下拉栏的移动,图的数据就会不由自主的变成0(似乎是故意显示成错误),毫无疑问,我在您的代码爬取的时候,也是爬着爬着就出现了很多0,不知道有什么方法解决吗

huangzhaor commented 4 years ago

这个问题只出现在单个省份的时候,它的数据时而会变0。。但是全国的数据是稳定(可能稳定的,至少不会变0那么明显)

longxiaofei commented 4 years ago

0是一个有效数字,精确到省份,精确到天,出现0这是有可能的。如果在用户正常操作下,也出现这种情况的话。

可能有两个原因吧,但是都不涉及到反爬。

一,百度指数后台统计的接口本身就有一些问题。 二、百度指数压根不想把这部分数据给用户看。

你可以询问一下百度指数的客服人员。

w-zhiwei commented 4 years ago

确实是这样的,百度指数似乎会随机返回空数据。我将爬下来的数据与网页数据对比的时候,发现有时候爬下来数据为空但网页上有数据,重复爬取后是能爬到这部分数据的。

huangzhaor commented 4 years ago

是的,但是重复爬也有可能再次出现为空的情况,我代码比较弱。不能完全避免哎,看看大神什么妙招哈哈

huangzhaor commented 4 years ago

我在试着和百度官方反应这个问题,大家也可以反映一下哈哈,让它自己把bug给改了

AlbieRWang commented 4 years ago

请问有什么好的解决方法吗,我也遇到了同样的问题