使用其他语料库测试的CER 过高

chenmingxiang110 / Chinese-automatic-speech-recognition

Chinese speech recognition

MIT License

163 stars 22 forks source link

使用其他语料库测试的CER 过高 #5

Closed Zepan closed 4 years ago

Zepan commented 4 years ago

你好，刚随手使用ths30语料库的第一条语料测试，声学模型（即拼音结果）的CER有30%左右

原文： lv_shi_yang_chun_yan_jing_da_kuai_wen_zhang_di_di_se_si_yve_de_lin_luan_geng_shi_lv_de_xian_huo_xiu_mei_shi_yi_ang_ran 识别结果 lv_shen_yang_che_ye_jie_da_po_wen_zhang_de_di_se_si_yue_de_li_lun_geng_shi_lv_de_xian_huo_xiu_mei_shi_yi_er_ran

但是正常最简单的CNN+CTC模型仅使用aishell训练（双卡1080Ti 2小时），使用ths30验证，CER也可以到20% 本项目模型泛化性似乎有问题？按照deep speech的宣传资料，应该base line就是CER 10%起跳的？

Zepan commented 4 years ago

从以下语料库的测试集随机抽50条wav测试的CER结果： ai shell ： 0.0216 thchs30 : 0.2294 prime : 0.1748 stcmd : 0.2399 tang : 0.1657

发现对于aishell语料库拟合很好，对于其它的通用语料库，有平均20%的CER，相当于10倍的训练语料库的错误率

chenmingxiang110 commented 4 years ago

谢谢，我之前确实有考虑过这个问题所以加入了youtube的数据以及各种噪声。但从你的测试来看，模型确实有过拟合的可能。我暂时能想到的原因大概是我的增广做的不足，regularization项做的不好，或者训练时间过长导致的过拟合。非常感谢你提供的测试结果，最近工作之余我会考虑你的建议并对模型进行一些修改。

Zepan commented 4 years ago

大佬有什么即时通信联系方式吗？我最近也在调语音相关的，不过是端侧的， 1MB 大小模型，在aishell上达到9.7% CER，thchs20上达到18.4% CER，正在思考怎么优化，使得CER全部降至10%以内如果有人交流会更有灵感些发了同内容邮件到你邮箱，方便的话互相交流下

chenmingxiang110 commented 4 years ago

我的邮箱是chenmingxiang110@gmail.com，邮件联系我一下，我给你邮箱发我的微信吧

chenmingxiang110 commented 4 years ago

那我们私下联系，这个issue就先close了哈