thuiar / MMSA

MMSA is a unified framework for Multimodal Sentiment Analysis.
MIT License
634 stars 104 forks source link

视频和文本对应不上 #66

Open gitgaviny opened 1 year ago

gitgaviny commented 1 year ago

label文件中的video和text有很多不能对应。 有些是视频和文本完全无关,比如-mJ2ud6oKI8。 有些是视频和文本说的是同一个话题,但是clip id对应不上,或者视频中的句子在文本中完全没有出现。比如0BVed2nBq1g。 有人知道这是怎么回事吗,或者有什么其他可以对应上的文件吗

FlameSky-S commented 1 year ago

这个是CMU提供的时间戳有问题。CMU提供的切分好的数据在切割视频时由于关键帧的原因会导致视频起始位置出现卡屏的问题,我们根据CMU提供的文本起始时间和截止时间从原视频中重新进行了切分。但是部分样本的时间戳是错误的。

比如你提到的-mJ2ud6oKI8,clip id为1的样本实际上位于原视频的2分钟左右,CMU提供的时间是从0.4秒到6.5秒为第一个样本。

由于数据量过于庞大,我们没有精力对每一条数据进行验证。如果您需要精确的视频,可以从原始视频中手动切分出对应的句子。

zsxzs commented 1 month ago

您好,我在CMU-Multimodal SDK中看到说不提供raw视频,请问原始视频的链接是从哪里获取的,期待您的解答谢谢。

这个是CMU提供的时间戳有问题。CMU提供的切分好的数据在切割视频时由于关键帧的原因会导致视频起始位置出现卡屏的问题,我们根据CMU提供的文本起始时间和截止时间从原视频中重新进行了切分。但是部分样本的时间戳是错误的。

比如你提到的-mJ2ud6oKI8,clip id为1的样本实际上位于原视频的2分钟左右,CMU提供的时间是从0.4秒到6.5秒为第一个样本。

由于数据量过于庞大,我们没有精力对每一条数据进行验证。如果您需要精确的视频,可以从原始视频中手动切分出对应的句子。

您好,我在CMU-Multimodal SDK中看到说不提供raw视频,请问原始视频的链接是从哪里获取的,期待您的解答谢谢。