多模态情绪识别 - Githubissues

2024.10.25A Facial Expression-Aware Multimodal Multi-task Learning Framework for Emotion Recognition in Multi-party Conversation.pdf 大致内容：多模态融合是文本，语音，视觉。这篇文章主要是在视觉方面聚焦于面部。有两个关键步骤，第一是在多人对话时，要准确筛选出真正说话的人。第二步是通过动态表情识别增强了视觉表示。 @Roooooooger 若极可以看看他如何进行视觉增强的，应该同样适用于疲劳检测。

IATE-LAB / paper-sharing

多模态情绪识别 #1