yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架,同时兼容在线和离线识别,目前支持Conformer、Squeezeformer、DeepSpeech2模型,支持多种数据增强方法。
Apache License 2.0
563 stars 100 forks source link

数据集标注信息 #41

Closed leishenzhupi closed 1 year ago

leishenzhupi commented 2 years ago

您好,我想问一下,如果标注信息中含有英文字母是不是最后识别不出来?因为我看您在数据准备中说明,标注信息中不能含有英文字母、阿拉伯数字等

yeyupiaoling commented 2 years ago

按照模型设计,应该是支持的,但是在集束搜索解码没有对应的语言模型,也没有对应的数据集。所以就做了限制。

leishenzhupi commented 2 years ago

好的,感谢!