thuiar / MMSA-FET

A Tool for extracting multimodal features from videos.
GNU General Public License v3.0
141 stars 21 forks source link

关于音频和视频特征的维度 #3

Closed HEBAULC closed 2 years ago

HEBAULC commented 2 years ago

您好,我注意到在CH-SIMS数据集中,训练集中'audio'={ndarray:(1368,400,33)},'vision'={ndarray:(1368,55,709)}这里的数字400和55指的是什么,分别是怎么计算得到的呢,是根据所有视频中的最大时长吗?然后有'audio_length'={list:1368},'vision_lengths'={list:1369}这个应该是他们的实际长度,他们的实际长度又如何和原视频中的总时间长度,视频采样率,音频采样率对应的呢,这里非常困惑,比如视频,如果一秒钟是24帧采样的话,一个8秒钟的视频,为什么vision_lengths中有的值是49呢,MOSEI、MOSEI中的第二个维度的长度也不知道怎么来的,和您这个数据集这个数字计算的方法一样吗,我观察到的是那两个数据集这个两个数字都是500,希望您能指点一下

dandelion915 commented 2 years ago

400指的是长度,33是特征维度。其中一个数据集中的长度是通过计算所有视频\音频\文本长度求一个基准值得到(具体可以参考代码),33的特征维度是在config文件中根据指定的需要提取的特征决定的。

HEBAULC commented 2 years ago

400指的是长度,33是特征维度。其中一个数据集中的长度是通过计算所有视频\音频\文本长度求一个基准值得到(具体可以参考代码),33的特征维度是在config文件中根据指定的需要提取的特征决定的。

好的,谢谢