maxujie / afew-emotion-recognition

Project for Course Introduction to Auditory-visual Information System in Tsinghua University.
BSD 3-Clause "New" or "Revised" License
1 stars 0 forks source link

2014年的winner文章 #7

Closed maxujie closed 7 years ago

maxujie commented 8 years ago

http://www.jdl.ac.cn/doc/2011/20151161991587822_2014_icmi_combining_multiple_kernel_methods_on_riemannian_manifold_for_emotion_recognition_in_the_wild.pdf

还没看,似乎用了很多黑科技的样子,在 2014 年测试集上效果 0.5

maxujie commented 8 years ago

提出并比较了几种对视频片段的每一帧提取 Feature 之后的处理方法

视频的 feature

线性子空间

Covariance Matrix

$$ C = \frac{1}{n-1} \sum^n_{i=1} (f_i - \bar{f})(f_i-\bar{f})^T $$

Gaussian Distribution

$$ \Sigma = \frac{1}{n-1} \sum^n_{i=1}(f_i - \mu)(f_i-\mu)^T $$

然后分别用不同的 Kernel 对三种不同的特征处理

这部分纯数学的东西太多,我并不了解,之后有必要去看看相关的资料

尝试用了几种不同的分类器方法

Kernel SVM

很经典的方法,如果不出意外的话我们优先考虑用它

Logistic Regression

Partial Least Squares

并不知道这是什么

声音特征提取

使用 OpenSMILE toolkit 提取了声音特征,不知道他们做了什么

结果最后用 HOG + SIFT + CFW-pretrained-DNN 图像特征 、PCA线性子空间维度 约减,加入OpenSMILE音频特征,最后用 Partial Least Squares 做分类的效果最好??

所以还是有比较去看一下 Partial Least Squares 分类器。。

以及有必要关注一下 OpenSMILE 的音频特征库 @sch145