chenmingxiang110 / Chinese-automatic-speech-recognition

Chinese speech recognition
MIT License
163 stars 22 forks source link

使用其他语料库测试的CER 过高 #5

Closed Zepan closed 4 years ago

Zepan commented 4 years ago

你好,刚随手使用ths30语料库的第一条语料测试,声学模型(即拼音结果)的CER有30%左右

原文: lv_shi_yang_chun_yan_jing_da_kuai_wen_zhang_di_di_se_si_yve_de_lin_luan_geng_shi_lv_de_xian_huo_xiu_mei_shi_yi_ang_ran 识别结果 lv_shen_yang_che_ye_jie_da_po_wen_zhang_de_di_se_si_yue_de_li_lun_geng_shi_lv_de_xian_huo_xiu_mei_shi_yi_er_ran

但是正常最简单的CNN+CTC模型仅使用aishell训练(双卡1080Ti 2小时),使用ths30验证,CER也可以到20% 本项目模型泛化性似乎有问题? 按照deep speech的宣传资料,应该base line就是CER 10%起跳的?

Zepan commented 4 years ago

从以下语料库的测试集随机抽50条wav测试的CER结果: ai shell : 0.0216 thchs30 : 0.2294 prime : 0.1748 stcmd : 0.2399 tang : 0.1657

发现对于aishell语料库拟合很好,对于其它的通用语料库,有平均20%的CER,相当于10倍的训练语料库的错误率

chenmingxiang110 commented 4 years ago

谢谢,我之前确实有考虑过这个问题所以加入了youtube的数据以及各种噪声。但从你的测试来看,模型确实有过拟合的可能。我暂时能想到的原因大概是我的增广做的不足,regularization项做的不好,或者训练时间过长导致的过拟合。非常感谢你提供的测试结果,最近工作之余我会考虑你的建议并对模型进行一些修改。

Zepan commented 4 years ago

大佬有什么即时通信联系方式吗?我最近也在调语音相关的,不过是端侧的, 1MB 大小模型,在aishell上达到9.7% CER,thchs20上达到18.4% CER,正在思考怎么优化,使得CER全部降至10%以内 如果有人交流会更有灵感些 发了同内容邮件到你邮箱,方便的话互相交流下

chenmingxiang110 commented 4 years ago

我的邮箱是chenmingxiang110@gmail.com,邮件联系我一下,我给你邮箱发我的微信吧

chenmingxiang110 commented 4 years ago

那我们私下联系,这个issue就先close了哈