性能度量(Performance Measure)

评价模型泛化能力的标准。
对于不同的模型,有不同的评价标准,不同的评价标准将导致不同的评价结果。
模型的好坏是相对的,取决于对于当前任务需求的完成情况。
比如对回归模型的性能度量通常选用均方误差(Mean Squared Error),对分类模型的性能度量通常采用错误率、精度、查准率、查全率、P-R曲线、混肴矩阵等。

比较检验

选择合适的评估方法和相应的性能度量,计算出性能度量后直接比较。
存在的问题:

  • 模型评估得到的是测试集上的性能,并非严格意义上的泛化性能,两者并不完全相同。
  • 测试集上的性能和样本的选取有很大关系,不同的划分,测试结果会不同,比较缺乏稳定性。
  • 很多模型本身有随机性,即使参数和数据集相同,其运行结果存在差异。

统计假设检验(Hypothesis Test)

事先对总体的参数或者分布做一个假设,然后基于已有的样本数据去判断这个假设是否合理。
即样本和总体假设之间的不同是纯属机会变异(因为随机性误差导致的不同),还是两者确实不同。
常用的假设检验方法有T-检验法、卡方检验、F-检验法等。
基本思想:

  • 从样本推断整体
  • 通过反证法推断假设是否成立
  • 小概率事件在一次试验中基本不会发生
  • 不轻易拒绝原假设
  • 通过显著性水平定义小概率事件不可能发生的概率
  • 全称命题只能被否定而不能被证明

偏差与方差

偏差(Bias)
描述的是根据样本拟合出的模型的输出预测结果的期望与样本真实结果的差距,即在样本上拟合得好不好。
方差(Variance)
模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
噪声(Noise)
为真实标记与数据集总的实际标记间的偏差。
通常由多种因素综合影响造成,不可去除。

偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。
方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。
噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。

偏差体现的是最终结果和实际结果的差异,偏差越小,和真实结果越接近。
方差体现的是整体水平波动,方差越小,结果稳定性越好。
期望的模型结果为:低偏差,低方差

偏差体现的是拟合程度的优劣,通常模型越复杂,偏差越小。当偏差较大时,即预期输出和实际结果偏离较大,称之为欠拟合。
方差体现的是模型的稳定程度。通常模型越简单,方差越小。当方差较大时,模型不稳定,即对一些新数据的预测不稳定。偏差小,方差大的情况即为过拟合。
ML笔记 - 模型的性能度量

相关文章: