thuiar / MMSA

MMSA is a unified framework for Multimodal Sentiment Analysis.
MIT License
634 stars 104 forks source link

有什么模型可以只输入视频和音频,不需要输入caption的吗 #89

Open tianguang2525 opened 5 months ago

tianguang2525 commented 5 months ago

如题

Columbine21 commented 5 months ago

目前多模态的模型本质上都可以处理两模态输入问题,把文本模态用 “零向量” 填充(实际上的操作是预训练模型中用[UNK]替换)与视频音频特征序列一起输入模型即可。

但这样做一般训练得到的模型性能很差(尤其是在MOSI MOSEI两个早期的数据集上,通常和数据偏置情况一致,等价于直接回归值为训练样本均值的情况。)所以,为了能训练两模态的模型,其实可以考虑在 SIMS v2 这类模态相对均衡的数据集上训练模型、进行性能测试。

如果同学是想做 端到端的音视频大模型,情况或许会有所不同,但目前的测试效果来看(MLLM 目前对内容等客观事实的捕捉好于对情感等主观问题的理解,这在很多其他团队的论文中也可以验证)还有一段差距。不过根据我对MOSI和MOSEI数据质量的了解,以及之前的(失败)经验,在这两个数据集上训练端到端模型基本不行。

如果说最新的一些工作可以直接回答你的问题,可以参考一些序列结构的多模态模型,可以处理任意模态数量输入的情况,如: MultiModN — Multimodal, Multi-Task, Interpretable Modular Networks

Columbine21 commented 5 months ago

简单地说,现在多模态的模型如果说要做情感分析问题,基本都要带上文本模态,因为效果好。

其实不仅仅是情感任务,所有多模态的MLLM都可以认为有主导模态的存在,大多数论文认为是文本,有少部分发现是其他模态。(我之前问过一些同学,他们的任务也是一样,语言果然是最直接,语义最丰富的模态)。

haikunzhang95 commented 1 month ago

目前多模态的模型本质上都可以处理两模态输入问题,把文本模态用 “零向量” 填充(实际上的操作是预训练模型中用[UNK]替换)与视频音频特征序列一起输入模型即可。

但这样做一般训练得到的模型性能很差(尤其是在MOSI MOSEI两个早期的数据集上,通常和数据偏置情况一致,等价于直接回归值为训练样本均值的情况。)所以,为了能训练两模态的模型,其实可以考虑在 SIMS v2 这类模态相对均衡的数据集上训练模型、进行性能测试。

如果同学是想做 端到端的音视频大模型,情况或许会有所不同,但目前的测试效果来看(MLLM 目前对内容等客观事实的捕捉好于对情感等主观问题的理解,这在很多其他团队的论文中也可以验证)还有一段差距。不过根据我对MOSI和MOSEI数据质量的了解,以及之前的(失败)经验,在这两个数据集上训练端到端模型基本不行。

如果说最新的一些工作可以直接回答你的问题,可以参考一些序列结构的多模态模型,可以处理任意模态数量输入的情况,如: MultiModN — Multimodal, Multi-Task, Interpretable Modular Networks

您好,有个问题请教您一下:我现在想用自己的视频片段(有声音,但是没有文本)测试MMSA里面的模型,应该怎么做呢?直接用MMSA-FET提取特征就可以了么?我看有的issue里面说要先训练,有点搞不懂了。谢谢!