NUSTM / FacialMMT

Code for paper "A Facial Expression-Aware Multimodal Multi-task Learning Framework for Emotion Recognition in Multi-party Conversations"
GNU General Public License v3.0
55 stars 3 forks source link

关于模型第一阶段工作的相关问题 #11

Closed hardlucky2023 closed 1 month ago

hardlucky2023 commented 1 month ago

作者您好,非常感谢您可以开源这么好的作品。在第一阶段的工作中,您提到使用了TalkNet模型来检测主动说话人,我之后也去了解了这个模型,并且尝试使用他们提供的demo进行了实验,下图是我实验的某个结果,但是输出结果是个标有红框和绿色框的视频,所以我想请教下您,关于下一步我应该怎么把只有绿色框的人脸提取出来呢(也就是怎么进一步把真实说话人提取出来)然后再进行相应的特征提取工作,您可以稍微提供一点思路给我吗?另外,我在自己的视频上进行了一些实验后,发现确实对于一些话语很短的视频,这些真实说话人并不能被检测到,看到您提出了使用3个多模态规则来提升了这方面的性能,您可以简单说下实现思路吗,或者有没有其它的公开资源可以参考一下呢? 期待你的回答,非常感谢您!

微信图片_20240907184214
wjzhengnlp commented 1 month ago

我们工作的具体做法是在经过多模态人脸识别方法(包括TalkNet以及一些规则方法)后,通过观察MELD数据集发现,老友记中主角出场的部分会占到80%多,且在一个utterance中通常只会有一个主角或者路人说话,所以我们为主角们训练了一个分类器,用于筛选。

hardlucky2023 commented 1 month ago

好的,谢谢您的回答,我看到您在第三届中国情感计算大会上也使用该方法处理了M3ED数据集,这个数据集也是通过第一阶段的方法提取出真实人脸序列的吗?我在百度网盘中好像没找到这个数据集的真实说话人的人脸序列,

hardlucky2023 commented 1 month ago

请问第一阶段的代码会开源吗?

wjzhengnlp commented 1 month ago

好的,谢谢您的回答,我看到您在第三届中国情感计算大会上也使用该方法处理了M3ED数据集,这个数据集也是通过第一阶段的方法提取出真实人脸序列的吗?我在百度网盘中好像没找到这个数据集的真实说话人的人脸序列,

好的,我将上传至百度云盘,估计今晚您可以去云盘中提取。

请问第一阶段的代码会开源吗?

抱歉,暂时没有这个意向。

hardlucky2023 commented 1 month ago

好的,非常感谢您!

wjzhengnlp commented 1 month ago

由于百度云盘上传大小限制,我上传到了https://huggingface.co/NUSTM/FacialMMT/tree/main

hardlucky2023 commented 1 month ago

好嘞,非常感谢您!

wjzhengnlp commented 1 month ago

好的,不用客气,我将关闭问题。