lijiankou的个人博客分享 http://blog.sciencenet.cn/u/lijiankou

博文

主成分分析

已有 7123 次阅读 2013-10-31 20:26 |个人分类:机器学习|系统分类:科研笔记|关键词:学者

主成分分析是一种降维方法,主要用于数据压缩,数据可视化以及特征提取等方面。 现实中我们经常可以遇到维数很高的数据,如一张28*28的图片,可以看作维度为784。类似图片这样的高维数据,实际上各个维度之间具有高度的关联性,即维度之间并非完全独立的。通过进行主成分分析,可以将数据的主要特征提取出来,忽略非 重要特征,从而对数据进行压缩。这里的主成分代表一组规范正交基,每个基用 $u_m$ 表示,并且满足 $u_m^Tu_m = 1$ 。假设X表示我们的观测数据矩阵,大小为N*D, 我们希望将其压缩到 N*M的矩阵Z。主成分分析有两种直观上的理解,并且可以 证明这两种直观理解是等价的。

第一种方式,我们希望找到这样一组正交基,使得映射后的数据方差最大。这样的目标函数符合我们的直观认识,因为方差表示了数据的差异性,方差大表示数据的差异性大, 即信息量大。如果在某个方向上的方差太小,或者等于 0,那么该方向的信息量小,因此在要求不高的情况下,可以忽略这样的方向。主成分分析正是基于这样的直观认识进行处理的。为了书写简单,我们假设预测数据的均值是0,如果不是0,让每个数据减去均值。一个数据 $x_n$ 映射到方向u后的坐标可以记为 $z_n =x^T_nu$ 。 因此映射后在该方向上的方差为

$var(z) = \frac{1}{N}\sum_{n=1}^N(u^Tx_n)^2 = u^TSu$    (1)

其中

$S = \frac{1}{N}\sum_{n=1}^Nx_nx_n^T$              (2)

为了使映射方差最大,使用拉格朗日乘子法最大化以下目标函数


$f = u^TSu + \lambda(1 - u^Tu)$            (3)


对u进行求导,然后令其等于零,可以得到如下解,

$Su = \lambda u$                   (4)

因此,u是数据协方差矩阵S的特征向量,进一步得到

$u^TSu = \lambda$                 (5)

即λ是一个极值点。因此u对应的是最大特征值的 特征向量,并且方差的最大值是S的最大特征值。换句话

说, S的各个特征值是数据在各个方向上映射方差的极值点。 另外计算一个矩阵A在某个方向u上的方差可

以如下计算

$\sigma^2 = u^TAu = u^T(\sum_{m=1}^M\lambda_mu_mu_m^T)u = \sum_{m=1}^M\lambda_m u^Tu_mu_m^Tu = \sum_{m=1}^M\lambda_m (u^Tu_m)^2$     (6)

即它表示u在各个正交基上的方差的加权和,权重就是相应方向的 特征值,如果u恰好是一个特征向量,那

么该结果就变成了 $\lambda_m$ 。 这说明了特征值和方差之间的内在关系。


主成分分析的另一种解释是找到一组正交基使得映射后的误差 最小。同样我们用 $\{u_m\}$ 表示我们的正次基,并且假设我们的主成分空间大小为M,数据空间大小为D,那么对于每个点 $x_n$ 我们可以有如下近似,

$\widetilde{x}_n = \sum_{m=1}^Mz_{nm}u_m + \sum_{m=M+1}^Db_mu_m$                (7)

上面的近似理解为,对 于前M个向量,我们为每个数据每给出精确的映射坐标,而对于非主成分,所有数据的值都用一个常数表示。于是我们得到如下的损失函数,

$J = \frac{1}{N}\sum_{n=1}^N||x_n - \widetilde{x}_n||^2$             (8)

对损失函数求导后,得到以下解,

$z_{nm} = x_n^Tu_m$                   (9)


$b_{m} = \bar{x}^Tu_m$         (10)


$||x_n - \widetilde{x}_n|| = \sum_{m=M+1}^D((x_m - \bar{x})^Tu_m)u_m$         (11)


然后将式(11)代入式(8)得到如下


$J = \frac{1}{N}\sum_{n=1}^N\sum_{m=M+1}^D(x_n^Tu_m -\bar{x}u_m)^2 = \sum_{m=M+1}^Du_m^TSu_m$     (12)


从上面的形式可以看出,它与最大化方差的形式相同,即 $u^TSu$ 的形式, 只不过现在是最小化。通过简单求导即可导出,当u是特征向量,可以取得 极值λ, 因此为了使得上式最小可以选择特征值最小的特征向量作为非主成分,相应的特征值最大的特征向量作为主成分。

上面给出了主成分分析的两种直观上的理解,一种是最大化方差,一种是最小化损失函数,无论用哪种方法,得到的结果是相同的。通过主成分分析我们发现,一个矩阵的特征值实际上是该矩阵在各个方向上方差的极值,并且在特征向量处取得。


1. pattern recognition and machine learning              Christopher M.Bishop   p559-565




https://m.sciencenet.cn/blog-520608-737848.html

上一篇:马尔可夫链蒙特卡罗算法
下一篇:概率主成分分析

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-6-3 19:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部