关于音频和视频特征的维度

thuiar / MMSA-FET

A Tool for extracting multimodal features from videos.

GNU General Public License v3.0

141 stars 21 forks source link

您好，我注意到在CH-SIMS数据集中，训练集中'audio'={ndarray:(1368,400,33)},'vision'={ndarray:(1368,55,709)}这里的数字400和55指的是什么，分别是怎么计算得到的呢，是根据所有视频中的最大时长吗?然后有'audio_length'={list:1368},'vision_lengths'={list:1369}这个应该是他们的实际长度,他们的实际长度又如何和原视频中的总时间长度，视频采样率，音频采样率对应的呢，这里非常困惑，比如视频，如果一秒钟是24帧采样的话，一个8秒钟的视频，为什么vision_lengths中有的值是49呢，MOSEI、MOSEI中的第二个维度的长度也不知道怎么来的，和您这个数据集这个数字计算的方法一样吗，我观察到的是那两个数据集这个两个数字都是500，希望您能指点一下

thuiar / MMSA-FET

关于音频和视频特征的维度 #3