二、模型评估

#没有测量，就没有科学

#在机器学习领域中，对模型的评估至关重要。只有选择与问题相匹配的评估方法，才能快速地发现模型选择或训练过程中出现的问题

#模型评估主要分为离线评估和在线评估两个阶段。

#针对分类、排序、回归、序列预测等不同类型的机器学习问题，评估指标的选择也有所不同。知道每种评估指标的精确定义、有针对性地选择合适的评估指标、根据评估指标的反馈进行模型调整，都是机器学习在模型评估阶段的关键问题

#模型评估指标的局限性

知识点：
[1] 准确率（Accuracy）
[2] 精确率（Precision）
[3] 召回率（Recall）
[4] 均方根误差（Root Mean Square Error，RMSE）
[5] ROC曲线
[6] ROC曲线下的面积（Aera Under Curve，AUC）
[7] P-R曲线
[8] 主题模型（Topic Model）
[9] 词嵌入模型（Word Embedding）
[10] Word2Vec
[11] 隐狄利克雷模型（LDA）
[12] CBOW
[13] Skip-gram
[14] 迁移学习（Transfer Learning）
[15] 生成对抗网络
[16] 图像处理
[17] 上采样技术
[18] 数据扩充

问题：
[1] 准确率的局限性
[2] 精确率与召回率的权衡
[3] 平方根误差的“意外”
[4] 什么是ROC曲线？
[5] 有哪些文本表示模型？它们各有什么优缺点？
[6] Word2Vec是如何工作的？它和LDA有什么区别与联系？
[7] 在图像分类任务中，训练数据不足会带来什么问题？如何缓解数据量不足带来的问题？

`1.评估指标的局限性：`

在模型评估过程中，分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。在诸多的评估指标中，大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标，不仅不能发现模型本身的问题，而且会得出错误的结论。

`1.1 准确率的局限性`

奢侈品广告主们希望把广告定向投放给奢侈品用户。利用已拿到了一部分奢侈品用户的数据，并以此为训练集和测试集，训练和测试奢侈品用户的分类模型。该模型的分类准确率超过了95%，但在实际广告投放过程中，该模型还是把大部分广告投给了非奢侈品用户，这可能是什么原因造成的？

`分析与解答：`

分类准确率的定义：
准确率是指分类正确的样本占总样本个数的比例，即
二、模型评估
其中ncorrect为被正确分类的样本个数，ntotal为总样本的个数

#准确率是分类问题中最简单也是最直观的评价指标，但存在明显的缺陷

#如，当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。所以，当不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。

显然，奢侈品用户只占全体用户的一小部分，虽然模型的整体分类准确率高，但是不代表对奢侈品用户的分类准确率也很高。在线上投放过程中，我们只会对模型判定的“奢侈品用户”进行投放，因此，对“奢侈品用户”判定的准确率不够高的问题就被放大。为解决这个问题，可以使用更为有效的平均准确率（每个类别下的样本准确率的算术平均）作为模型评估的指标。

#这是一道比较开放的问题，标准答案也不限于评估指标的选择，即使评估指标选择对了，仍会存在模型过拟合或欠拟合、测试集和训练集划分不合理、线下评估与线上测试的样本分布存在差异等一系列问题，但评估指标的选择是最容易被发现，也是最可能影响评估结果的因素。

`1.2 精确率与召回率的权衡`

Hulu提供视频的模糊搜索功能，搜索排序模型返回的Top 5的精确率非常高，但在实际使用过程中，用户还是经常找不到想要的视频，特别是一些比较冷门的剧集，这可能是哪个环节出了问题？

`分析与解答：`

精确率和召回率的概念：
精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。
召回率是指分类正确的正样本个数占真正的正样本个数的比例。

在排序问题中，通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本，而是采用Top N返回结果的Precision值和Recall值来衡量排序模型的性能，即认为模型返回的Top N的结果就是模型判定的正样本，然后计算前N个位置上的准确率[email protected]和前N个位置上的召回率[email protected]。

Precision值和Recall值是既矛盾又统一的两个指标，为提高Precision值，分类器需要尽量在“更有把握”时才把样本预测为正样本，但此时往往会因为过于保守而漏掉很多“没有把握”的正样本，导致Recall值降低。

#模型返回的[email protected]的结果非常好，即排序模型Top5的返回值的质量是很高的。

在实际应用过程中，用户为了找一些冷门的视频，往往会寻找排在较靠后位置的结果，甚至翻页去查找目标视频。但根据题目描
述，用户经常找不到想要的视频，这说明模型没有把相关的视频都找出来呈现给用户。显然，问题出在召回率上。

如果相关结果有100个，即使[email protected]达到了100%，[email protected]也仅仅是5%。在模型评估时，我们是否应该同时关注Precision值和Recall值？进一步而言，是否应该选取不同的Top N的结果进行观察呢？是否应该选取更高阶的评估指标来更全面地反映模型Precision值和Recall值两方面的表现？

为了综合评估一个排序模型的好坏，不仅要看模型在不同
Top N下的[email protected]和[email protected]，而且最好绘制出模型的P-R（Precision-Recall）曲线。

简单介绍`P-R曲线的绘制方法`：

P-R曲线的横轴是召回率，纵轴是精确率。对于一个排序模型来说，其P-R曲线上的一个点代表着，在某一阈值下，模型将大于该阈值的结果判定为正样本，小于该阈值的结果判定为负样本，此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。

下图是P-R曲线样例图，，其中实线代表模型A的P-R曲线，虚线代表模型B的P-R曲线。原点附近代表当阈值最大时模型的精确率和召回率。
二、模型评估
由图可见，当召回率接近于0时，模型A的精确率为0.9，模型B的精确率是1，这说明模型B得分前几位的样本全部是真正的正样本，而模型A即使得分最高的几个样本也存在预测错误的情况。并且，随着召回率的增加，精确率整体呈下降趋势。但是，当召回率为1时，模型A的精确率反而超过了模型B。

这充分说明，只用某个点对应的精确率和召回率是不能全面地衡量模型的性能，只有通过P-R曲线的整体表现，才能够对模型进行更为全面的评估。

#F1 score和ROC曲线也能综合反映一个排序模型的性能。

F1 score是精准率和召回率的调和平均值，它定义为
二、模型评估

`1.3 平方根误差的“意外”`

构建回归模型来预测某部美剧的流量趋势，但无论采用哪种回归模型，得到的RMSE指标都非常高。然而事实是，模型在95%的时间区间内的预测误差都小于1%，取得了相当不错的预测结果。那么，造成RMSE指标居高不下的最可能的原因是什么？

`分析与解答：`

RMSE经常被用来衡量回归模型的好坏，但按照题目的叙述，RMSE这个指标却失效了。

RMSE的计算公式：
二、模型评估
其中，yi是第i个样本点的真实值， y_i^是第i个样本点的预测值，n是样本点的个数。

一般情况下，RMSE能够很好地反映回归模型预测值与真实值的偏离程度。但在实际问题中，如果存在个别偏离程度非常大的离群点（Outlier）时，即使离群点数量非常少，也会让RMSE指标变得很差。

回到问题中来，模型在95%的时间区间内的预测误差都小于1%，这说明，在大部分时间区间内，模型的预测效果都是非常优秀的。然而，RMSE却一直很差，这很可能是由于在其他的5%时间区间内存在非常严重的离群点。

事实上，在流量预估这个问题中，噪声点确实是很容易产生的，比如流量特别小的美剧、刚上映的美剧或者刚获奖的美剧，甚至一些相关社交媒体突发事件带来的流量，都可能会造成离群点。

`解决方案`：

【1】如果认定这些离群点是“噪声点”，就需要在数据预处理的阶段把噪声点过滤掉
【2】如果不认为这些离群点是“噪声点”，就需要进一步提高模型的预测能力，将离群点产生的机制建模进去
【3】可以找更合适的指标来评估该模型。关于评估指标，其实
是存在比RMSE的鲁棒性更好的指标，比如平均绝对百分比误差（Mean Absolute Percent Error，MAPE）

`平均绝对百分比误差`（Mean Absolute Percent Error，`MAPE`）定义：

二、模型评估
相比RMSE，MAPE相当于把每个点的误差进行了归一化，降低了个别离群点带来的绝对误差的影响。

`总结与扩展：`

本小节基于三个假想的应用场景和对应的模型问题，说明选择合适的评估指标的重要性。每个评估指标都有其价值，但如果只从单一的评估指标出发去评估模型，往往会得出片面甚至错误的结论；只有通过一组互补的指标去评估模型，才能更好地发现并解决模型存在的问题，从而更好地解决实际业务场景中遇到的问题。

`2.ROC曲线：`

二值分类器（Binary Classifier）是机器学习领域中最常见也是应用最广泛的分类器。

`2.1 什么是ROC曲线？`

`分析与解答：`

参考文献：
【1】《百面机器学习算法工程师带你去面试》第1版人民邮电出版社 [中] 诸葛越主编葫芦娃著