似乎不能用了，可能是哪里出了问题？

longxiaofei / spider-BaiduIndex

data sdk for baidu Index

MIT License

748 stars 230 forks source link

Closed VeeDou closed 5 years ago

VeeDou commented 5 years ago

[x] 下载chromedriver, 并将它放到环境变量中
[x] 下载tesseract, 并将它放到环境变量中
[x] 单账号抓取：请你打开百度的首页，登录后，将百度首页的cookie复制后，粘贴到config.py中的COOKIES对象中
[x] 找到tesseract文件夹, tesseract/3.05.02/share/tessdata/configs中的digits 这些都做了。不知道怎么进行调试

longxiaofei commented 5 years ago

应该是分辨率的问题，我有空改一下。
你也可以在get_index.py的第179行尝试修改一下剪切图片的大小。
https://github.com/longxiaofei/spider-BaiduIndex/issues/1

VeeDou commented 5 years ago

感谢大佬贡献的代码！

longxiaofei commented 5 years ago

感谢大佬贡献的代码！

之前不能识别可能的原因是：没有正确配置环境变量。

最后发现是需要自己训练才能比较准确识别出来。我参考的是这个，Tesseract-OCR 图片数字识别的样本训练

是的，即使正确剪切图片后，识别率也只在80%左右，一直考虑重新做一下识别的部分，但一直没有时间，谢谢你提供的参考。

VeeDou commented 5 years ago

爬虫好像用不了呢，获取不到 res值。index页请求返回的html是这样的：应该是改版了，index页面的内容通过js去加载了以下是加载js后的源码，似乎和原来的套路不一样了呢。 baiduIndex.txt

longxiaofei commented 5 years ago

已经更新