Closed VeeDou closed 5 years ago
应该是分辨率的问题, 我有空改一下。
你也可以在get_index.py的第179行尝试修改一下剪切图片的大小。
https://github.com/longxiaofei/spider-BaiduIndex/issues/1
感谢大佬贡献的代码!
感谢大佬贡献的代码!
- 之前不能识别可能的原因是:没有正确配置环境变量。
- 最后发现是需要自己训练才能比较准确识别出来。我参考的是这个,Tesseract-OCR 图片数字识别的样本训练
是的,即使正确剪切图片后,识别率也只在80%左右,一直考虑重新做一下识别的部分,但一直没有时间,谢谢你提供的参考。
爬虫好像用不了呢,获取不到 res值。index页请求返回的html是这样的: 应该是改版了,index页面的内容通过js去加载了 以下是加载js后的源码,似乎和原来的套路不一样了呢。 baiduIndex.txt
已经更新
[x] 下载chromedriver, 并将它放到环境变量中
[x] 下载tesseract, 并将它放到环境变量中
[x] 单账号抓取:请你打开百度的首页,登录后,将百度首页的cookie复制后,粘贴到config.py中的COOKIES对象中
[x] 找到tesseract文件夹, tesseract/3.05.02/share/tessdata/configs中的digits 这些都做了。不知道怎么进行调试