Closed hardlucky2023 closed 1 month ago
我们工作的具体做法是在经过多模态人脸识别方法(包括TalkNet以及一些规则方法)后,通过观察MELD数据集发现,老友记中主角出场的部分会占到80%多,且在一个utterance中通常只会有一个主角或者路人说话,所以我们为主角们训练了一个分类器,用于筛选。
好的,谢谢您的回答,我看到您在第三届中国情感计算大会上也使用该方法处理了M3ED数据集,这个数据集也是通过第一阶段的方法提取出真实人脸序列的吗?我在百度网盘中好像没找到这个数据集的真实说话人的人脸序列,
请问第一阶段的代码会开源吗?
好的,谢谢您的回答,我看到您在第三届中国情感计算大会上也使用该方法处理了M3ED数据集,这个数据集也是通过第一阶段的方法提取出真实人脸序列的吗?我在百度网盘中好像没找到这个数据集的真实说话人的人脸序列,
好的,我将上传至百度云盘,估计今晚您可以去云盘中提取。
请问第一阶段的代码会开源吗?
抱歉,暂时没有这个意向。
好的,非常感谢您!
由于百度云盘上传大小限制,我上传到了https://huggingface.co/NUSTM/FacialMMT/tree/main
好嘞,非常感谢您!
好的,不用客气,我将关闭问题。
作者您好,非常感谢您可以开源这么好的作品。在第一阶段的工作中,您提到使用了TalkNet模型来检测主动说话人,我之后也去了解了这个模型,并且尝试使用他们提供的demo进行了实验,下图是我实验的某个结果,但是输出结果是个标有红框和绿色框的视频,所以我想请教下您,关于下一步我应该怎么把只有绿色框的人脸提取出来呢(也就是怎么进一步把真实说话人提取出来)然后再进行相应的特征提取工作,您可以稍微提供一点思路给我吗?另外,我在自己的视频上进行了一些实验后,发现确实对于一些话语很短的视频,这些真实说话人并不能被检测到,看到您提出了使用3个多模态规则来提升了这方面的性能,您可以简单说下实现思路吗,或者有没有其它的公开资源可以参考一下呢? 期待你的回答,非常感谢您!