《机器学习》第一章绪论 总结
1.2 基本术语
示例(instance)/ 样本(sample):关于一个事件或对象的描述,也可以认为是一个记录
数据集(data set):样本/示例/记录的集合,D={x_1,x_2,…,x_m}表示包含m个示例的数据集。若每个示例x_i=(x_i1; x_i2;…;x_id)是样本空间χ中的一个向量,则d称为样本 x_i的维数,x_ij是x_i在第j个属性上的取值
属性(attribute)/ 特征(feature):反映事件或对象在某方面的表现或性质的事项。
属性值(attribute value):属性上的取值
属性空间(attribute space)/ 样本空间(sample space)/ 输入空间:属性张成的空间。例如把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间
特征向量(feature vector):每个示例都可以在样本空间中找到自己的坐标位置,个示例称为一个特征向量
模型:泛指从数据中学得的结果
学习(learning)/ 训练(training):从数据中学得模型的过程
训练数据(training data):训练中使用的数据
训练样本(training sample):训练数据中每一个样本
训练集(training set):训练样本组成的集合
假设(hypothesis):学得模型对应的关于数据的某种潜在的规律
真相/ 真实(ground-truth):数据的某种潜在规律自身,学习过程就是为了找出或逼近真相
学习器(learner):模型的另一种说法,可以看作学习算法在给定数据和参数空间上的实例化
标记(label):示例结果的信息
样例(example):拥有了标记信息的示例,用(x_i, y_i)表示第i个样例,其中y_i∈Y是示例x_i的标记
标记空间(label space)/ 输出空间:所有标记的集合,用Y表示
分类(classification):预测的是离散值的学习任务
回归(regression):预测的是连续值的学习任务
测试(testing):学得模型后使用其进行预测的过程
测试样本(testing sample):被预测的样本
聚类(clustering):对即将用于训练的样本分成若干组,每组称为一个簇(cluster),这些自动形成的簇可能对应一些潜在的概念划分
监督学习(supervised learning):训练数据有标记信息,分类和回归是此种学习的代表
无监督学习(unsupervised learning):训练数据没有标记信息,聚类是此种学习的代表
泛化(generalization):学得模型适用与新样本的能力
1.3 假设空间
归纳(induction):从特殊到一半的泛化过程,即从具体事实归结出一般性规律
演绎(deduction):从一般到特殊的特化(specialization)过程,即从基础原理推演出具体情况
归纳学习(inductive learning):从样例中学习
假设空间(hypothesis space):由输入空间到输出空间的映射的集合
版本空间(version space):与训练集一致的假设集合
1.4 归纳偏好
归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好
课后习题