thuiar / MMSA

MMSA is a unified framework for Multimodal Sentiment Analysis.
MIT License
634 stars 104 forks source link

关于处理过的数据集的疑问 #105

Open ziruiqin opened 4 months ago

ziruiqin commented 4 months ago

仔细地看了论文和数据集,关于三个模态的processed的数据集我有一些问题:

  1. 文本模态为什么用bert模型处理后,是将每个单词表示为768个特征的向量而不是将一个句子表示? image
  2. 还有你们的文本处理过后的数据第二维是39,意思是指你们将所有句子通过padding使得单词数量变为39吗? image
  3. 同理,音频和视频模态的第二维是不是也是时间步长呢?可以告知一下音频模态的400时间步长是指采样频率为400HZ吗?视频上论文写得采样频率是30HZ,但是时间步长是55,这也是padding的结果是吧? image image
Columbine21 commented 2 months ago

@ziruiqin Q1. 文本模态为什么用bert模型处理后,是将每个单词表示为768个特征的向量而不是将一个句子表示 A1. 因为文本序列要进行后续的融合,而非先得到文本的向量表示进行“后期”融合; Q2. 还有你们的文本处理过后的数据第二维是39,意思是指你们将所有句子通过padding使得单词数量变为39吗? A2. 是的,还有截断操作,用的是3sigma原则 选择的长度39. Q3. 同理,音频和视频模态的第二维是不是也是时间步长呢?可以告知一下音频模态的400时间步长是指采样频率为400HZ吗?视频上论文写得采样频率是30HZ,但是时间步长是55,这也是padding的结果是吧? A3. 音频和视频模态的第二维是时间步长。您可能混淆了采样频率(特征数 per second),时间步长(总特征时间步)的概念。如果您用的是aligned 数据最后时间步长都是进过补齐/截断操作的