Closed AZYoung233 closed 9 months ago
感谢您对本工作的关注。视觉特征是基于预训练模型提取,语音特征直接分帧提取Mel谱,并不包含上文,两者在后续建模中使用bilstm提取上下文信息。
感谢您对本工作的关注。视觉特征是基于预训练模型提取,语音特征直接分帧提取Mel谱,并不包含上文,两者在后续建模中使用bilstm提取上下文信息。