luyishisi / Anti-Anti-Spider

越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)(因工作原因,项目暂停)
https://www.urlteam.cn
7.28k stars 2.17k forks source link

想用tensorflow_cnn进行中文验证码识别,text2vec该怎么处理呢? #26

Open SimonWang00 opened 6 years ago

SimonWang00 commented 6 years ago

text2vec仅支持向量用0,1编码 每63个编码一个字符,对数字,英文没问题,那中文该怎么解决呢?

image

leng-yue commented 5 years ago

这里可以自己定义码表 或者取unicode中的编码