Closed doubibobo closed 11 months ago
您好!
在论文的表4中,您单独列出了文本模态的识别结果,请问有对其它两个模态做实验嘛?
我对声音和视觉两种模态分别做实验,二分类acc不到60%,所以想问下您这边得到的结果,看哪里出了问题。
谢谢!
您好,这是一个非常好的问题,在我们目前的实验中发现,只有单音频模态和单视频模态效果都不是很理想(只用音频模态效果比视频模态效果好一些),这个现象也比较符合预期,比如只观看视频或者听语音语调还是比较难分辨不同意图的,关于如何更好的利用视频和音频模态进行单模态分类仍是一个十分具有挑战而有趣的问题,欢迎探讨!
您好!
在论文的表4中,您单独列出了文本模态的识别结果,请问有对其它两个模态做实验嘛?
我对声音和视觉两种模态分别做实验,二分类acc不到60%,所以想问下您这边得到的结果,看哪里出了问题。
谢谢!