yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架,同时兼容在线和离线识别,目前支持Conformer、Squeezeformer、DeepSpeech2模型,支持多种数据增强方法。
Apache License 2.0
597 stars 106 forks source link

自定义数据集,为什么不支持阿拉伯数字以及英文字母? #12

Closed isumh closed 3 years ago

isumh commented 3 years ago

请教下,自定义数据集,为什么不支持阿拉伯数字以及英文字母?另外输出结果中如何得到文字对应音频的时间轴?

yeyupiaoling commented 3 years ago

@isumh 我做限制的,英文我怕阿拉伯数字和中文数字冲突,比如2和二都读er,不利于模型训练。另外22和二十二,就不一样了。 文字对应音频的时间轴这个做不到。

isumh commented 3 years ago

能否推荐下带时间轴的关键字搜索的实现路径?

yeyupiaoling commented 3 years ago

@isumh 你是要做什么,我这个是语音识别

isumh commented 3 years ago

我的需求是从现有wav语音文件中识别出中文、英文字母和数字(军用数字0-洞 1-幺 2-两 3-三......),并能够输出对应的识别结果音频时间。

yeyupiaoling commented 3 years ago

@isumh 阿拉伯数字可以从中文转换,英文字母你可以加上,这都可以实现,你说的音频时间位置,可以考虑裁剪音频的方式。