有关机器学习的基本术语:
- **数据集:**一组数据记录的集合;
- **属性 :**表示事件或对象在某方面的表现或性质的事项;例如西瓜的“色泽”、“触感”等;
- **属性值:**属性上的取值;如“青绿”、“硬滑”等
- **属性空间:**或称样本空间、输入空间,表示属性张成的空间;如“色泽”、“触感”、“敲声”构成一个描述西瓜的三维空间;
- **特征向量:**空间中的每个店对应一个坐标向量,我们把一个示例称为一个“特征向量”;
- **训练:**从数据中学得模型的过程
- **训练数据:**训练中使用的数据,其中每一个样本称为训练样本;
- **训练集:**训练样本组成的集合;
- **泛化(能力):**学得模型适用于新样本的能力称为泛化能力;
- **归纳偏好:**学习过程中对某种类型假设的偏好称为归纳偏好;
- **错误率:**分错样本的占比:E=a/m;
- **精度:**分对样本占样本总数的比例;
- **误差:**样本真实输出与预测输出之间的差异;
- 过拟合:学习器把训练样本本身特点当做所有潜在 样本都会具有的一般性质;
- **欠拟合:**训练样本的一般性质尚未被学习器学好。
奥卡姆剃刀:“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,选最简单的那个”。
评估方法:
在现实任务中,往往有多种学习算法可供选择,甚至对同一个学习算法,当使用不同的参数配置时,也会产生不同的模型。那么,应该选用哪一个学习算法、使用哪一种参数配置呢?这就是机器学习中的“模型选择”问题。
评估方法:
(1)留出法:
- 直接将数据集划分为两个互斥集合
- 训练/测试集划分要尽可能保持数据分布的一致性
- 一般若干次随机划分、重复试验取平均值
- 训练/测试样本比例通常为2:1~4:1
(2)交叉验证法:
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10;
与留出法类似,将数据集D划分为k个子集同样存在多种划分方式,为了减小因样本划分不同而引入的差别,k折交叉验证通常随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值,例如常见的“10次10折交叉验证”
假设数据集D包含m个样本,若令k=m,则得到留一法:
- 不受随机样本划分方式的影响
- 结果往往比较准确
- 当数据集比较大时,计算开销难以接受
(3)自助法:
以自助采样法为基础,对数据集D有放回采样m次得到训练集D1,D\D1用作测试集。 - 实际模型与预期模型都使用m个训练样本
- 约有1/3的样本没在训练集中出现
- 从初始数据集中产生多个不同的训练集,对集成学习有很大的好处
- 自助法在数据集较小、难以有效划分训练/测试集时很有用;由于改变了数据集分布可能引入估计偏差,在数据量足够时,留出法和交叉验证法更常用。
性能度量: 性能度量是衡量模型泛化能力的评价标准,反应了任务需求;使用不同的性能度量往往会导致不同的评判结果
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例、假正例、真反例、假反例四种情形,令TP、FP、TN、FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数。分类结果的“混淆矩阵”如下:
查准率和查全率是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。
P-R图(P-R曲线)
**P-R曲线:**以查准率为纵轴、查全率为横轴作图,就得到了查准率-查全率曲线,简称“P-R曲线”,显示该曲线的图称为“P-R图”。