降维

2019-09-15

学习地址

应用

数据压缩：

简单来说样本的特征维数可能很多，这样造成数据量特别大，在实际应用中我们可能只侧重与某些特征就能得出想要的结果了；而我们不太侧重的那些特征就可以删除，减轻工作量，提高效率。
还有一种，就像想方设法用更适合可取的数据代替当前样本，达到同样的目的，比如对内存的需求，运算量等。
实例： 2D压缩到1D，3D压缩到2D

可视化数据 ：

假如数据特征维数很高，通常不太可能作出简单的图来理解，故需要选取某些维数进行作图，或者，自己使用某种方法将原来的高维数数据转化为低维数据再进行作图，以便理解。

主成份分析法PCA

概念

PCA算法： Principal Component Analysis
试图找出一个低维平面，使得所有数据都可以投影在上面，并且投影误差平方最小化，用新的维度空间代替原来高维空间，达到降维的目的。
2019-09-15 15-24-39 的屏幕截图.png

PCA并不是线形回归，线形回归是拟合一条直线(在二维特征集中)使得样本到这条直线的平方误差最小；而PCA是使得样本到这条直线的投影距离最小。在三维数据集中，PCA尝试的是找出一个二维平面，使得所有样本数据投影到这个平面的投影距离最小，那么就可以用这个二维平面来表示这些数据。

应用

首先需要进行数据预处理：特征缩放或均值标准化
2019-09-15 16-01-43 的屏幕截图.png
S_j是特征j的标准偏差

然后，使用主成份分析法进行降维映射。
主成份分析法需要用到一些高等代数如奇异值分解等运算和证明。

主成份数量选择

2019-09-15 16-27-38 的屏幕截图.png
2019-09-15 16-32-40 的屏幕截图.png
2019-09-15 16-33-30 的屏幕截图.png

压缩重现

2019-09-15 16-37-10 的屏幕截图.png

应用PCA的建议

不建议使用PCA防止过拟合。
不建议项目一开始就使用PCA，而是先按普通方法去做，再考虑PCA优化有什么不同