chenxie95 / deeplearning_course_sjtu

14 stars 2 forks source link

流式语音识别 #11

Closed Christian-chen1206 closed 2 years ago

Christian-chen1206 commented 2 years ago

请问要实现流式语音识别是只需要将--use_streaming设为True,还是说要更换train_asr.yaml中的模型结构呢。

chenxie95 commented 2 years ago

需要确定use_streaming是按照流式语音识别的方式进行识别(i.e. 识别时不需要看整个音频数据),这个可能需要设计到修改transformer的 attention mask,如果espnet有实现了,也可以借鉴和利用起来。报告中需要有性能分析和实现描述,并带有可重现的代码和设置。