Closed Christian-chen1206 closed 2 years ago
请问要实现流式语音识别是只需要将--use_streaming设为True,还是说要更换train_asr.yaml中的模型结构呢。
--use_streaming
需要确定use_streaming是按照流式语音识别的方式进行识别(i.e. 识别时不需要看整个音频数据),这个可能需要设计到修改transformer的 attention mask,如果espnet有实现了,也可以借鉴和利用起来。报告中需要有性能分析和实现描述,并带有可重现的代码和设置。
请问要实现流式语音识别是只需要将
--use_streaming
设为True,还是说要更换train_asr.yaml中的模型结构呢。