自定义数据集，为什么不支持阿拉伯数字以及英文字母？

yeyupiaoling / MASR

Pytorch实现的流式与非流式的自动语音识别框架，同时兼容在线和离线识别，目前支持Conformer、Squeezeformer、DeepSpeech2模型，支持多种数据增强方法。

Apache License 2.0

597 stars 106 forks source link

Closed isumh closed 3 years ago

isumh commented 3 years ago

请教下，自定义数据集，为什么不支持阿拉伯数字以及英文字母？另外输出结果中如何得到文字对应音频的时间轴？

yeyupiaoling commented 3 years ago

@isumh 我做限制的，英文我怕阿拉伯数字和中文数字冲突，比如2和二都读er，不利于模型训练。另外22和二十二，就不一样了。 文字对应音频的时间轴这个做不到。

isumh commented 3 years ago

能否推荐下带时间轴的关键字搜索的实现路径?

yeyupiaoling commented 3 years ago

@isumh 你是要做什么，我这个是语音识别

isumh commented 3 years ago

我的需求是从现有wav语音文件中识别出中文、英文字母和数字（军用数字0-洞 1-幺 2-两 3-三......），并能够输出对应的识别结果音频时间。

yeyupiaoling commented 3 years ago

@isumh 阿拉伯数字可以从中文转换，英文字母你可以加上，这都可以实现，你说的音频时间位置，可以考虑裁剪音频的方式。