关于模型第一阶段工作的相关问题

NUSTM / FacialMMT

Code for paper "A Facial Expression-Aware Multimodal Multi-task Learning Framework for Emotion Recognition in Multi-party Conversations"

GNU General Public License v3.0

55 stars 3 forks source link

关于模型第一阶段工作的相关问题 #11

Closed hardlucky2023 closed 1 month ago

hardlucky2023 commented 1 month ago

作者您好，非常感谢您可以开源这么好的作品。在第一阶段的工作中，您提到使用了TalkNet模型来检测主动说话人，我之后也去了解了这个模型，并且尝试使用他们提供的demo进行了实验，下图是我实验的某个结果，但是输出结果是个标有红框和绿色框的视频，所以我想请教下您，关于下一步我应该怎么把只有绿色框的人脸提取出来呢（也就是怎么进一步把真实说话人提取出来）然后再进行相应的特征提取工作，您可以稍微提供一点思路给我吗？另外，我在自己的视频上进行了一些实验后，发现确实对于一些话语很短的视频，这些真实说话人并不能被检测到，看到您提出了使用3个多模态规则来提升了这方面的性能，您可以简单说下实现思路吗，或者有没有其它的公开资源可以参考一下呢？期待你的回答，非常感谢您！

wjzhengnlp commented 1 month ago

我们工作的具体做法是在经过多模态人脸识别方法（包括TalkNet以及一些规则方法）后，通过观察MELD数据集发现，老友记中主角出场的部分会占到80%多，且在一个utterance中通常只会有一个主角或者路人说话，所以我们为主角们训练了一个分类器，用于筛选。

hardlucky2023 commented 1 month ago

好的，谢谢您的回答，我看到您在第三届中国情感计算大会上也使用该方法处理了M3ED数据集，这个数据集也是通过第一阶段的方法提取出真实人脸序列的吗？我在百度网盘中好像没找到这个数据集的真实说话人的人脸序列，

hardlucky2023 commented 1 month ago

请问第一阶段的代码会开源吗？

wjzhengnlp commented 1 month ago

好的，谢谢您的回答，我看到您在第三届中国情感计算大会上也使用该方法处理了M3ED数据集，这个数据集也是通过第一阶段的方法提取出真实人脸序列的吗？我在百度网盘中好像没找到这个数据集的真实说话人的人脸序列，

好的，我将上传至百度云盘，估计今晚您可以去云盘中提取。

请问第一阶段的代码会开源吗？

抱歉，暂时没有这个意向。

hardlucky2023 commented 1 month ago

好的，非常感谢您！

wjzhengnlp commented 1 month ago

由于百度云盘上传大小限制，我上传到了https://huggingface.co/NUSTM/FacialMMT/tree/main

hardlucky2023 commented 1 month ago

好嘞，非常感谢您！

wjzhengnlp commented 1 month ago

好的，不用客气，我将关闭问题。