主成分分析法及spss实现
1.概述
主成分分析(Principal Component Analysis,PCA)是一种降维算法,它能将多个指标转换为少数几个主成分,这些主成分是原始变量的线性组合,且彼此之间互不相关,其能反映出原始数据的大部分信息。一般来说,当研究的问题涉及到多变量且变量之间存在很强的相关性时,我们可考虑使用主成分分析的方法来对数据进行简化。
降维是将高维度的数据(指标太多)保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。
降维具有如下一些优点:
1).使得数据集更易使用;
2).降低算法的计算开销;
3).去除噪声;
4).使得结果容易理解
2.主成分分析原理及计算步骤
2.1主成分分析原理
假设有n个样本,m个指标,则可以构成大小为n*m的样本矩阵X:

假设我们相找到新的一组变量y1,y2…yp(p<=m),且他们满足

系数lij的确定原则:
(1)yi和yj(i≠j;i,j=1,2,…,p)相互无关;
(2)y1是的一切线性组合中方差最大者;
(3)y2是与y1不相关的的一切线性组合中方差最大者;
(4)依次类推,yp是与y1,y2,…yp-1不相关的的一切线性组合中方差最大者;
新变量指标y1,y2,…yp称为的主成分。
2.2 主成分分析计算步骤
假设有n个样本,m个指标,则可以构成大小为n*m的样本矩阵X:

(1)数据标准化处理


其中,为原始X矩阵平均值,为原始X矩阵标准差,为标准化处理后元素。
(2)计算标准化样本的协方差矩阵:

(3)计算R的特征值和特征向量:
计算得出特征值λ1,λ2…λm,特征向量a1,a2…am
特征值计算链接:https://blog.csdn.net/weixin_42260102/article/details/102896371
(4)计算主成分贡献率以及累计贡献率:

(5)写出主成分
一般取累计贡献率超过80%的特征值所对应的第一、第二、…、第m(m≤p)个主成分。第i个主成分:F=a1X1+a2X2…·十aiXi,(i=1,2,·,m)
3.SPSS实现
(1)数据收集:数据来源于国家统计局官网

(2)数据预处理:填补或去除缺项,并进行标准化处理。

(3)导入SPSS:进入SPSS,打开相关数据文件

(4)主成分分析:选择“分析”|“降维”|“因子”命令。选择进行因子分析的变量。在“因子分析”对话框的左侧列表框中,依次选择需要进行主成分分析的变量进入“变量”列表框。并选择想要输出的一系列参数,保存,点击【确定】。


(5)分析结果展示:成分矩阵下表为成分矩阵,表明各个成分在各个变量上的载荷,从而可以得出各主成分的表达式。输出参数为各原变量系数。
