降维

学习地址

应用

数据压缩

  • 简单来说样本的特征维数可能很多,这样造成数据量特别大,在实际应用中我们可能只侧重与某些特征就能得出想要的结果了;而我们不太侧重的那些特征就可以删除,减轻工作量,提高效率。
  • 还有一种,就像想方设法用更适合可取的数据代替当前样本,达到同样的目的,比如对内存的需求,运算量等。
  • 实例: 2D压缩到1D,3D压缩到2D

可视化数据

  • 假如数据特征维数很高,通常不太可能作出简单的图来理解,故需要选取某些维数进行作图,或者,自己使用某种方法将原来的高维数数据转化为低维数据再进行作图,以便理解。

主成份分析法PCA

概念

PCA算法: Principal Component Analysis
试图找出一个低维平面,使得所有数据都可以投影在上面,并且投影误差平方最小化,用新的维度空间代替原来高维空间,达到降维的目的。
2019-09-15 15-24-39 的屏幕截图.png

PCA并不是线形回归,线形回归是拟合一条直线(在二维特征集中)使得样本到这条直线的平方误差最小;而PCA是使得样本到这条直线的投影距离最小。在三维数据集中,PCA尝试的是找出一个二维平面,使得所有样本数据投影到这个平面的投影距离最小,那么就可以用这个二维平面来表示这些数据。

应用

首先需要进行数据预处理:特征缩放或均值标准化
2019-09-15 16-01-43 的屏幕截图.png
Sj是特征j的标准偏差

然后,使用主成份分析法进行降维映射。
主成份分析法需要用到一些高等代数如奇异值分解等运算和证明。

主成份数量选择

2019-09-15 16-27-38 的屏幕截图.png
2019-09-15 16-32-40 的屏幕截图.png
2019-09-15 16-33-30 的屏幕截图.png

压缩重现

2019-09-15 16-37-10 的屏幕截图.png

应用PCA的建议

  1. 不建议使用PCA防止过拟合。
  2. 不建议项目一开始就使用PCA,而是先按普通方法去做,再考虑PCA优化有什么不同