正则化

学习地址

过度拟合

  • 虽然拟合出来的曲线通过了所有的样本点,但弯弯曲曲不稳定,具有高方差。训练过度使得拟合曲线千方百计把样本分开,但应用到新的样本数据时效果很差。如果特征很多,但样本数很少就容易出现这种情况。
  • 解决办法:
    • 减少特征数:人工选择特征/模式选择算法
    • 正则化:减少数据规模或者说参数θ的大小

代价函数

在之前的代价函数基础上在增加penalty,即加上关于θ的多项式: λ/(2m)*mΣ(θj)2,叫做正则化项。而这个正则化项所乘的参数λ叫做正则化参数。
得到了新的代价函数J, 这是正则化线形回归的优化目标
为什么要加上正则化项呢?我们的目标是尽量最小化代价函数J,这样会将θ一起减小,但拟合出来的曲线更符合要求。

线形回归的正则化

对于正则化梯度下降的θ更新问题:
2019-07-15 20-12-27 的屏幕截图.png
对于正则化的正规方程问题:
2019-07-15 20-20-42 的屏幕截图.png
对于不可逆问题,在正则化中只要λ>0,那么括号里面的一定是可逆的。

逻辑回归的正则化

防止过拟合现象,代价函数加上正则化项。
2019-07-19 10-16-53 的屏幕截图.png
梯度下降:
2019-07-19 10-19-33 的屏幕截图.png

2019-07-15 21-05-17 的屏幕截图.png