学习地址
应用
数据压缩:
- 简单来说样本的特征维数可能很多,这样造成数据量特别大,在实际应用中我们可能只侧重与某些特征就能得出想要的结果了;而我们不太侧重的那些特征就可以删除,减轻工作量,提高效率。
- 还有一种,就像想方设法用更适合可取的数据代替当前样本,达到同样的目的,比如对内存的需求,运算量等。
- 实例: 2D压缩到1D,3D压缩到2D
可视化数据 :
- 假如数据特征维数很高,通常不太可能作出简单的图来理解,故需要选取某些维数进行作图,或者,自己使用某种方法将原来的高维数数据转化为低维数据再进行作图,以便理解。
主成份分析法PCA
概念
PCA算法: Principal Component Analysis
试图找出一个低维平面,使得所有数据都可以投影在上面,并且投影误差平方最小化,用新的维度空间代替原来高维空间,达到降维的目的。
PCA并不是线形回归,线形回归是拟合一条直线(在二维特征集中)使得样本到这条直线的平方误差最小;而PCA是使得样本到这条直线的投影距离最小。在三维数据集中,PCA尝试的是找出一个二维平面,使得所有样本数据投影到这个平面的投影距离最小,那么就可以用这个二维平面来表示这些数据。
应用
首先需要进行数据预处理:特征缩放或均值标准化
Sj是特征j的标准偏差
然后,使用主成份分析法进行降维映射。
主成份分析法需要用到一些高等代数如奇异值分解等运算和证明。
主成份数量选择
压缩重现
应用PCA的建议
- 不建议使用PCA防止过拟合。
- 不建议项目一开始就使用PCA,而是先按普通方法去做,再考虑PCA优化有什么不同