机器学习开课

有关机器学习的基本术语：

**数据集：**一组数据记录的集合；
**属性：**表示事件或对象在某方面的表现或性质的事项；例如西瓜的“色泽”、“触感”等；
**属性值：**属性上的取值；如“青绿”、“硬滑”等
**属性空间：**或称样本空间、输入空间，表示属性张成的空间；如“色泽”、“触感”、“敲声”构成一个描述西瓜的三维空间；
**特征向量：**空间中的每个店对应一个坐标向量，我们把一个示例称为一个“特征向量”；
**训练：**从数据中学得模型的过程
**训练数据：**训练中使用的数据，其中每一个样本称为训练样本；
**训练集：**训练样本组成的集合；
**泛化（能力）：**学得模型适用于新样本的能力称为泛化能力；
**归纳偏好：**学习过程中对某种类型假设的偏好称为归纳偏好；
**错误率：**分错样本的占比：E=a/m；
**精度：**分对样本占样本总数的比例；
**误差：**样本真实输出与预测输出之间的差异；
过拟合：学习器把训练样本本身特点当做所有潜在样本都会具有的一般性质；
**欠拟合：**训练样本的一般性质尚未被学习器学好。

奥卡姆剃刀：“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，选最简单的那个”。

评估方法：

在现实任务中，往往有多种学习算法可供选择，甚至对同一个学习算法，当使用不同的参数配置时，也会产生不同的模型。那么，应该选用哪一个学习算法、使用哪一种参数配置呢？这就是机器学习中的“模型选择”问题。
评估方法：
（1）留出法：

直接将数据集划分为两个互斥集合
训练/测试集划分要尽可能保持数据分布的一致性
一般若干次随机划分、重复试验取平均值
训练/测试样本比例通常为2:1~4:1
（2）交叉验证法：
将数据集分层采样划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为测试集，最终返回k个测试结果的均值，k最常用的取值是10；

与留出法类似，将数据集D划分为k个子集同样存在多种划分方式，为了减小因样本划分不同而引入的差别，k折交叉验证通常随机使用不同的划分重复p次，最终的评估结果是这p次k折交叉验证结果的均值，例如常见的“10次10折交叉验证”

假设数据集D包含m个样本，若令k=m，则得到留一法：

不受随机样本划分方式的影响
结果往往比较准确
当数据集比较大时，计算开销难以接受
（3）自助法：
以自助采样法为基础，对数据集D有放回采样m次得到训练集D1，D\D1用作测试集。
实际模型与预期模型都使用m个训练样本
约有1/3的样本没在训练集中出现
从初始数据集中产生多个不同的训练集，对集成学习有很大的好处
自助法在数据集较小、难以有效划分训练/测试集时很有用；由于改变了数据集分布可能引入估计偏差，在数据量足够时，留出法和交叉验证法更常用。

性能度量： 性能度量是衡量模型泛化能力的评价标准，反应了任务需求；使用不同的性能度量往往会导致不同的评判结果
机器学习开课
对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例、假正例、真反例、假反例四种情形，令TP、FP、TN、FN分别表示其对应的样例数，则显然有TP+FP+TN+FN=样例总数。分类结果的“混淆矩阵”如下：
机器学习开课
查准率和查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。

P-R图（P-R曲线）

**P-R曲线：**以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称“P-R曲线”，显示该曲线的图称为“P-R图”。
机器学习开课