songgeb / BDIndexSpider

百度指数爬取工具,基于webdriver。开放源码提供一个抓百度指数的思路
https://songgeb.github.io/2017/01/29/%E7%99%BE%E5%BA%A6%E6%8C%87%E6%95%B0%E7%88%AC%E5%8F%96%E5%B7%A5%E5%85%B7/
83 stars 23 forks source link

Win 10系统,抓取的图片ocr识别率比较低 #9

Closed songgeb closed 6 years ago

songgeb commented 6 years ago

主要原因是,抓取到的图片,其中的字体和ocr算法中预定义的字体差别较大,导致识别时汉明距离较大,超过了阈值,识别失败

songgeb commented 6 years ago

实测Win 7系统和mac系统,识别率没问题

songgeb commented 6 years ago

Win10系统,1920*1080分辨率下抓取没问题。怀疑抓取失败的情况跟屏幕分辨率相关

songgeb commented 6 years ago

解决办法是,桌面->右键->显示设置->缩放与布局->更改文本、应用等项目的大小

改为--100%