Closed maxujie closed 7 years ago
提出并比较了几种对视频片段的每一帧提取 Feature 之后的处理方法
$$ C = \frac{1}{n-1} \sum^n_{i=1} (f_i - \bar{f})(f_i-\bar{f})^T $$
$$ \Sigma = \frac{1}{n-1} \sum^n_{i=1}(f_i - \mu)(f_i-\mu)^T $$
这部分纯数学的东西太多,我并不了解,之后有必要去看看相关的资料
很经典的方法,如果不出意外的话我们优先考虑用它
并不知道这是什么
使用 OpenSMILE toolkit 提取了声音特征,不知道他们做了什么
所以还是有比较去看一下 Partial Least Squares 分类器。。
以及有必要关注一下 OpenSMILE 的音频特征库 @sch145
http://www.jdl.ac.cn/doc/2011/20151161991587822_2014_icmi_combining_multiple_kernel_methods_on_riemannian_manifold_for_emotion_recognition_in_the_wild.pdf
还没看,似乎用了很多黑科技的样子,在 2014 年测试集上效果 0.5