性能度量 | 模型评估指标的局限性

性能度量 | 模型评估指标的局限性

当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要的因素。
举例：当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。
可以使用更为有效的平均准确率(每个类别下的样本准确率的算术平均)作为模型评估的指标。
模型的好坏，标准答案其实也不限于指标的选择，即使评估指标选择对了，仍会存在模型过拟合或欠拟合、测试集和训练集划为不合理、线下评估与线上测试的样本分布存在差异等一系列问题，但评估指标的选择是最容易被发现，也是最可能影响评估结果的因素。

精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
召回率是指分类正确的正样本个数占真正的正样本个数的比例。
Precision值和Recall值是即矛盾又统一的两个指标，为了提高Precision值，分类器需要尽量在更有把握时才把样本预测为正样本，但此时往往会因为过于保守而漏掉很多没有把握的正样本，导致Recall值降低。
回到问题中来，模型返回的[email protected]的结果非常好，也就是说排序模型Top5的返回值的质量是很高的。但在实际应用过程中，用户为了找一些冷门的视频，往往会寻找排在较靠后位置的结果，甚至翻页去查找目标视频。但根据题目描述，用户经常找不到想要的视频，这说明模型没有把相关的视频都找出来呈现给用户。显然，问题出现在召回率上。如果相关结果有100个，即使[email protected]达到了100%,[email protected]也仅仅是5%，在模型评估时，我们是否应该同时关注Precision值和Recall值？进一步而言，是否应该选取不同的Top N的结果进行观察呢？是否应该选取更高阶的评价指标来更全面地反映模型在Precision值和Recall值两方面的表现？
除此之外，F1 score和ROC曲线也能综合地反映一个排序模型的性能。

F1 score是精准率和召回率的调合平均值，它定义为：
性能度量 | 模型评估指标的局限性

性能度量 | 模型评估指标的局限性

一般情况下，RMSE能够很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中，如果存在个别偏离程度非常大的离群点Outlier时，即使离群点数量非常少，也会让RMSE指标变得很差。