您好，请问提取的视/音频特征是否包含了上下文，还是只有当前这句话的情况？ - Githubissues

LeMei / UniMSE

169 stars 24 forks source link

您好，请问提取的视/音频特征是否包含了上下文，还是只有当前这句话的情况？ #50

Closed AZYoung233 closed 9 months ago

LeMei commented 9 months ago

感谢您对本工作的关注。视觉特征是基于预训练模型提取，语音特征直接分帧提取Mel谱，并不包含上文，两者在后续建模中使用bilstm提取上下文信息。