2014年的winner文章 - Githubissues

提出并比较了几种对视频片段的每一帧提取 Feature 之后的处理方法

视频的 feature

线性子空间

对视频片段所有帧的特征做 svd，取前若干个基重构出视频特征

Covariance Matrix

$$ C = \frac{1}{n-1} \sum^n_{i=1} (f_i - \bar{f})(f_i-\bar{f})^T $$

结果会得到一个 d * d 的协方差矩阵，用该矩阵作为整个视频的特征

Gaussian Distribution

假定 f 服从高斯分布，用相关阵来表示视频的特征

$$ \Sigma = \frac{1}{n-1} \sum^n_{i=1}(f_i - \mu)(f_i-\mu)^T $$

与前一种方法的区别是要预先设定数据的分布

然后分别用不同的 Kernel 对三种不同的特征处理

这部分纯数学的东西太多，我并不了解，之后有必要去看看相关的资料

尝试用了几种不同的分类器方法

Kernel SVM

很经典的方法，如果不出意外的话我们优先考虑用它

Logistic Regression

Partial Least Squares

并不知道这是什么

声音特征提取

使用 OpenSMILE toolkit 提取了声音特征，不知道他们做了什么

结果最后用 HOG + SIFT + CFW-pretrained-DNN 图像特征、PCA线性子空间维度约减，加入OpenSMILE音频特征，最后用 Partial Least Squares 做分类的效果最好？？

所以还是有比较去看一下 Partial Least Squares 分类器。。

以及有必要关注一下 OpenSMILE 的音频特征库 @sch145

maxujie / afew-emotion-recognition

2014年的winner文章 #7

视频的 feature

线性子空间

Covariance Matrix

Gaussian Distribution

然后分别用不同的 Kernel 对三种不同的特征处理

尝试用了几种不同的分类器方法

Kernel SVM

Logistic Regression

Partial Least Squares

声音特征提取

结果最后用 HOG + SIFT + CFW-pretrained-DNN 图像特征、PCA线性子空间维度约减，加入OpenSMILE音频特征，最后用 Partial Least Squares 做分类的效果最好？？

maxujie / afew-emotion-recognition

2014年的winner文章 #7

视频的 feature

线性子空间

Covariance Matrix

Gaussian Distribution

然后分别用不同的 Kernel 对三种不同的特征处理

尝试用了几种不同的分类器方法

Kernel SVM

Logistic Regression

Partial Least Squares

声音特征提取

结果最后用 HOG + SIFT + CFW-pretrained-DNN 图像特征 、PCA线性子空间维度 约减，加入OpenSMILE音频特征，最后用 Partial Least Squares 做分类的效果最好？？

结果最后用 HOG + SIFT + CFW-pretrained-DNN 图像特征、PCA线性子空间维度约减，加入OpenSMILE音频特征，最后用 Partial Least Squares 做分类的效果最好？？