关于处理过的数据集的疑问

thuiar / MMSA

MMSA is a unified framework for Multimodal Sentiment Analysis.

MIT License

634 stars 104 forks source link

@ziruiqin Q1. 文本模态为什么用bert模型处理后，是将每个单词表示为768个特征的向量而不是将一个句子表示 A1. 因为文本序列要进行后续的融合，而非先得到文本的向量表示进行“后期”融合； Q2. 还有你们的文本处理过后的数据第二维是39，意思是指你们将所有句子通过padding使得单词数量变为39吗？ A2. 是的，还有截断操作，用的是3sigma原则选择的长度39. Q3. 同理，音频和视频模态的第二维是不是也是时间步长呢？可以告知一下音频模态的400时间步长是指采样频率为400HZ吗？视频上论文写得采样频率是30HZ，但是时间步长是55，这也是padding的结果是吧？ A3. 音频和视频模态的第二维是时间步长。您可能混淆了采样频率（特征数 per second），时间步长（总特征时间步）的概念。如果您用的是aligned 数据最后时间步长都是进过补齐/截断操作的

thuiar / MMSA

关于处理过的数据集的疑问 #105