Open simo-an opened 2 years ago
主成分分析( PCA) 是一种最常用的数据降维方法, 使得在转换后的空间中数据的方差最大。 如图9.1所示的两维数据, 如果将这些数据投影到一维空间中, 选择数据方差最大的方向进行投影, 才能最大化数据的差异性, 保留更多的原始数据信息。(根据信息论,数据方差越大,包含的信息越大,方差为0,则不包含任何信息)
主成分分析有两个步骤:
在上面的两个过程中,重构回的数据会丢失一部分信息,这部分信息可能就是噪声,所以具有数据降噪能力。一下举一个例子:
如上面的二维数据可能是某一线性函数f(x) = ax + b在引入噪声后的分布情况,现将其线性映射到一维空间上(如x轴上),再重构回二维空间,数据就会服从在某一函数g(x) = ax + b上(成了一条直线),相当于去掉了噪声。
f(x) = ax + b
g(x) = ax + b
参考:https://www.cxymm.net/article/m0_38056893/103188612
习题9-1 分析主成分分析为什么具有数据降噪能力?
解答
什么是主成分分析?
主成分分析( PCA) 是一种最常用的数据降维方法, 使得在转换后的空间中数据的方差最大。 如图9.1所示的两维数据, 如果将这些数据投影到一维空间中, 选择数据方差最大的方向进行投影, 才能最大化数据的差异性, 保留更多的原始数据信息。(根据信息论,数据方差越大,包含的信息越大,方差为0,则不包含任何信息)
主成分分析为什么具有数据降噪能力?
主成分分析有两个步骤:
在上面的两个过程中,重构回的数据会丢失一部分信息,这部分信息可能就是噪声,所以具有数据降噪能力。一下举一个例子:
如上面的二维数据可能是某一线性函数
f(x) = ax + b
在引入噪声后的分布情况,现将其线性映射到一维空间上(如x轴上),再重构回二维空间,数据就会服从在某一函数g(x) = ax + b
上(成了一条直线),相当于去掉了噪声。