流式语音识别 - Githubissues

chenxie95 / deeplearning_course_sjtu

14 stars 2 forks source link

Closed Christian-chen1206 closed 2 years ago

Christian-chen1206 commented 2 years ago

请问要实现流式语音识别是只需要将--use_streaming设为True，还是说要更换train_asr.yaml中的模型结构呢。

chenxie95 commented 2 years ago

需要确定use_streaming是按照流式语音识别的方式进行识别（i.e. 识别时不需要看整个音频数据），这个可能需要设计到修改transformer的 attention mask，如果espnet有实现了，也可以借鉴和利用起来。报告中需要有性能分析和实现描述，并带有可重现的代码和设置。