前言

花费一整天定制OSpider_ExtraTools,又用大半天处理GIS保研讲座的备课,笔记电子化的时间稍微晚了一些。不得不说,坚持做笔记确实不是一件容易的事情。

章节二 机器学习通用方法

课时7 机器学习性能度量方法

虽然老师讲性能度量和模型评估不一样,但是在我看来是高度近似的。**这里可能存在理解问题
课程主要讲的是监督学习的问题,包括回归和分类两大类。一个思维导图给出了分类和回归类机器学习模型性能的常用度量指标:
小O学习笔记-9讲入门机器学习(二)
回归的几个指标都很Easy,相对难算一点的就是R方和调整R方了,但这是统计学的相关内容,这里就不说了。重点看分类的几个指标(我原来虽然知道,但是有点糊):
一个核心概念是分类的混淆矩阵,如下图所示。(Markdown不支持复杂表格,复杂表格要么用嵌入式的Html来做,要么直接用图片代替把)
小O学习笔记-9讲入门机器学习(二)
所谓Positive,在0-1分类中无疑就是指1;在多分类问题中,我认为是指我们关注的类。一个机器学习模型可以识别图片中是否有人,那么“有人”-1就是我们关注的Positive;另一个机器学习模型用于识别图片中是否有男人或女人(让我们忽略中性),其结果有四个类型:“只有男人”、“只有女人”、“既有男人又有女人”、“不存在男人或女人”,那么前三个类型就是我们关注的类,是Positive。从这个例子,我觉得是不是应该有sub-Positive的概念?我认为多分类中,当我们只关注一个类时,这个类就是sub-Positive的,这个时候其他所有类被认为是Negative。
称真实值为Positive,预测值也为positive为真阳-TP(把真识别为真);真实值为Negtive,预测值为Positive为假阳-NP(把假识别为真);真实值为Positive,预测值为Negtive为假阴(把真识别为假);真实值为Negtive,预测值也为Negtive为真阴(把假的识别为假的)。这个概念其实和假设检验中的第一类、第二类错误是非常类似的。这四个基本概念是后续一系列模型性能测度指标的基础。

首先是3个单一指标:
准确率 Accuracy=(TP+TN)/(TP+TN+FP+FN) : 准确识别的样本数占所有样本数的比率
精确率(查准率)Precision=TP/(TP+FP) : 从预测值视角出发,等价于预测为阳的可信度
召回率(查全率)Recall=TP/(TP+FN) : 从真实值视角出发,等价于模型筛选出阳的完整度
其次是一个复合指标F1 Score,F1 score是Precision和Recall的调和平均数,即F1=2RP/(R+P)。转换成有四个基础值表示的话,F1=2TP/(2TP+FP+FN)。有一种P和R分子分母分别相加的既视感。

对于一个0-1分类问题,类似逻辑回归,我们要根据样本的各个特征(属性)计算出一个概率值p,p越接近1,越有可能为1类(真/阳)。那么,什么时候我们认为某个样本是1类呢?这时,我们需要一个阈值t。当p>t的时候我们将该样本划分为1类,否则划分为0类。当在0-1间取不同的阈值时,我们注意到4个基本量(TP/NP/TF/NF)会发生变化,这意味着一系列单一指标也会发生变化。当评价模型的整体性能而不是特定阈值下的性能的时候,我们引入了新的评价手段——不同的曲线。
一种典型曲线是P-R曲线,以精确率P为纵轴,召回率R为横轴。
另一种是受试者操作特性曲线 (receiver operating characteristic curve,简称ROC曲线),我们一般直接叫ROC。ROC曲线以真阳率TPR为纵轴,假阳率FPR为横轴。

FPR = FP/(FP + TN) 负样本中的错判率(假警报率)
TPR = TP/(TP + TN) 判对样本中的正样本率(命中率)
ACC = (TP + TN) / P+N 判对准确率

ROC相对于P-R有当样本特征值发生线性变化时,曲线不变的有点,所以一般我们用ROC曲线和ROC曲线的下的面积AUC(Area under the curve)带评价机器学习模型。ROC曲线约陡峭,AUC越大,说明模型性能越好。

之前记得有一篇文章讲ROC曲线非常的棒,一下没找到了,下次找到了再修改当前的文章吧。

课时8 损失函数

概念:度量机器学习模型总的预测值与真实值间差距的函数。
就我个人而言,损失函数就是在性能度量指标的求和,运用于模型内部。而性能度量指标某种程度上类似于均值。我的理解不完全对,但是有用。
网课的PPT谈了5种常用损失函数:0-1、绝对值、对数、平方、指数损失函数,同时老师口头提了“交叉熵损失函数”。除交叉熵损失函数外,其他几个函数都很easy。交叉熵函数的进一步定义可以看博客:简单的交叉熵损失函数,你真的懂了吗?。这里我只是扫了一眼,之后留作备用。
小O学习笔记-9讲入门机器学习(二)
本来这里想用LaTeX公式的,但是掌握的不熟悉太费时间了。本周还有其他事情,不宜在文档编辑问题上投入过多精力。记录几个讲在Markdown中用公式的博客:
MarkDown 插入数学公式实验大集合
Markdown数学公式语法

课时9 过拟合与正则化

监督模型的核心问题就是确定正则化参数的同时最小化经验风险。

模型过于复杂就可能产生过拟合问题,而正则化是解决模型过拟合问题的一种方法。所谓正则化就是给模型的复杂度增加一些惩罚项。

好吧,说实话这里我没弄懂。需要之后再看补充资料。

课时10 交叉验证

为了让模型的评价更可靠。对于同一份数据,多次选取不同的训练集和测试集,进行模型的训练与检验,最终评价结果取平均就是交叉验证。

问题:交叉验证的情况下,具体该用哪一组参数进行部署?

相关文章: