longxiaofei / spider-BaiduIndex

data sdk for baidu Index
MIT License
748 stars 230 forks source link

似乎不能用了,可能是哪里出了问题? #2

Closed VeeDou closed 5 years ago

VeeDou commented 5 years ago

image

longxiaofei commented 5 years ago

应该是分辨率的问题, 我有空改一下。
你也可以在get_index.py的第179行尝试修改一下剪切图片的大小。
https://github.com/longxiaofei/spider-BaiduIndex/issues/1

VeeDou commented 5 years ago

感谢大佬贡献的代码!

  1. 之前不能识别可能的原因是:没有正确配置环境变量。
  2. 最后发现是需要自己训练才能比较准确识别出来。我参考的是这个,Tesseract-OCR 图片数字识别的样本训练
longxiaofei commented 5 years ago

感谢大佬贡献的代码!

  1. 之前不能识别可能的原因是:没有正确配置环境变量。
  2. 最后发现是需要自己训练才能比较准确识别出来。我参考的是这个,Tesseract-OCR 图片数字识别的样本训练

是的,即使正确剪切图片后,识别率也只在80%左右,一直考虑重新做一下识别的部分,但一直没有时间,谢谢你提供的参考。

VeeDou commented 5 years ago

爬虫好像用不了呢,获取不到 res值。index页请求返回的html是这样的: image 应该是改版了,index页面的内容通过js去加载了 以下是加载js后的源码,似乎和原来的套路不一样了呢。 baiduIndex.txt

longxiaofei commented 5 years ago

已经更新