机器学习系统设计

学习地址

确定执行的优先级

例子:邮件垃圾分类器
2019-09-01 15-58-04 的屏幕截图.png
2019-09-01 16-00-00 的屏幕截图.png

误差分析

开始设计一个机器学习应用或系统时,如何快速作出理想效果?
2019-09-01 16-07-22 的屏幕截图.png
例如垃圾邮件分类器,手动判别失败的交叉训练样本,查看问题出在哪里,然后对症下药
2019-09-01 16-18-07 的屏幕截图.png

数值估计:是否应该区分单复数/大小写等,查看错误率作出选择。

不对称分类的误差评估

例子:癌症预测
偏斜类(skewed class): y=1/0的样本特别少,而另一方的样本数特别多,这样预测出来的结果甚至可能还没总是预测为多的一方这样的假算法效果好

如何解决上面这种情况?需要一个不同的误差评估度量值,例如查准率与召回率

查准率precision:患有癌症的病人有多大比率的病人是真正患有癌症的。查准率越高越好
召回率recall:患有癌症的病人有多大几率正确预测出来。越高越好。
2019-09-01 16-56-03 的屏幕截图.png

通过查准率与召回率我们可以知道一个模型好与坏

精确度和召回率的权衡

我们已经有了查准率和召回率的定义,癌症预测的例子中所是哟使用的逻辑回归模型,当hθ(x)≥threshold时,预测为1。通常threshold=0.5,当threshold增大时,预测为1的数量会减小,但准确率查准率增大,而召回率会减小;当threshold减小时,情况相反。如何自动选择阈值threshold?
2019-09-01 17-18-56 的屏幕截图.png

如何自动选择阈值threshold?
比较常见的一种:F值或叫F_1值
2019-09-01 17-20-57 的屏幕截图.png