有什么模型可以只输入视频和音频，不需要输入caption的吗

tianguang2525 commented 5 months ago

如题

Columbine21 commented 5 months ago

目前多模态的模型本质上都可以处理两模态输入问题，把文本模态用 “零向量” 填充（实际上的操作是预训练模型中用[UNK]替换）与视频音频特征序列一起输入模型即可。

但这样做一般训练得到的模型性能很差（尤其是在MOSI MOSEI两个早期的数据集上，通常和数据偏置情况一致，等价于直接回归值为训练样本均值的情况。）所以，为了能训练两模态的模型，其实可以考虑在 SIMS v2 这类模态相对均衡的数据集上训练模型、进行性能测试。

如果同学是想做端到端的音视频大模型，情况或许会有所不同，但目前的测试效果来看（MLLM 目前对内容等客观事实的捕捉好于对情感等主观问题的理解，这在很多其他团队的论文中也可以验证）还有一段差距。不过根据我对MOSI和MOSEI数据质量的了解，以及之前的（失败）经验，在这两个数据集上训练端到端模型基本不行。

如果说最新的一些工作可以直接回答你的问题，可以参考一些序列结构的多模态模型，可以处理任意模态数量输入的情况，如： MultiModN — Multimodal, Multi-Task, Interpretable Modular Networks

Columbine21 commented 5 months ago

简单地说，现在多模态的模型如果说要做情感分析问题，基本都要带上文本模态，因为效果好。

其实不仅仅是情感任务，所有多模态的MLLM都可以认为有主导模态的存在，大多数论文认为是文本，有少部分发现是其他模态。（我之前问过一些同学，他们的任务也是一样，语言果然是最直接，语义最丰富的模态）。

haikunzhang95 commented 1 month ago

目前多模态的模型本质上都可以处理两模态输入问题，把文本模态用 “零向量” 填充（实际上的操作是预训练模型中用[UNK]替换）与视频音频特征序列一起输入模型即可。

但这样做一般训练得到的模型性能很差（尤其是在MOSI MOSEI两个早期的数据集上，通常和数据偏置情况一致，等价于直接回归值为训练样本均值的情况。）所以，为了能训练两模态的模型，其实可以考虑在 SIMS v2 这类模态相对均衡的数据集上训练模型、进行性能测试。

如果同学是想做端到端的音视频大模型，情况或许会有所不同，但目前的测试效果来看（MLLM 目前对内容等客观事实的捕捉好于对情感等主观问题的理解，这在很多其他团队的论文中也可以验证）还有一段差距。不过根据我对MOSI和MOSEI数据质量的了解，以及之前的（失败）经验，在这两个数据集上训练端到端模型基本不行。

如果说最新的一些工作可以直接回答你的问题，可以参考一些序列结构的多模态模型，可以处理任意模态数量输入的情况，如： MultiModN — Multimodal, Multi-Task, Interpretable Modular Networks

您好，有个问题请教您一下：我现在想用自己的视频片段（有声音，但是没有文本）测试MMSA里面的模型，应该怎么做呢？直接用MMSA-FET提取特征就可以了么？我看有的issue里面说要先训练，有点搞不懂了。谢谢！

thuiar / MMSA

有什么模型可以只输入视频和音频，不需要输入caption的吗 #89