LeMei / UniMSE

169 stars 24 forks source link

您好,请问提取的视/音频特征是否包含了上下文,还是只有当前这句话的情况? #50

Closed AZYoung233 closed 9 months ago

LeMei commented 9 months ago

感谢您对本工作的关注。视觉特征是基于预训练模型提取,语音特征直接分帧提取Mel谱,并不包含上文,两者在后续建模中使用bilstm提取上下文信息。