《机器学习》第一章绪论总结

《机器学习》第一章绪论总结
1.2 基本术语
示例（instance）/ 样本（sample）：关于一个事件或对象的描述，也可以认为是一个记录
数据集（data set）：样本/示例/记录的集合，D={x_1,x_2,…,x_m}表示包含m个示例的数据集。若每个示例x_i=(x_i1; x_i2;…;x_id)是样本空间χ中的一个向量，则d称为样本 x_i的维数，x_ij是x_i在第j个属性上的取值
属性（attribute）/ 特征（feature）：反映事件或对象在某方面的表现或性质的事项。
属性值（attribute value）：属性上的取值
属性空间（attribute space）/ 样本空间（sample space）/ 输入空间：属性张成的空间。例如把“色泽”“根蒂”“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间
特征向量（feature vector）：每个示例都可以在样本空间中找到自己的坐标位置，个示例称为一个特征向量
模型：泛指从数据中学得的结果
学习（learning）/ 训练（training）：从数据中学得模型的过程
训练数据（training data）：训练中使用的数据
训练样本（training sample）：训练数据中每一个样本
训练集（training set）：训练样本组成的集合
假设（hypothesis）：学得模型对应的关于数据的某种潜在的规律
真相/ 真实（ground-truth）：数据的某种潜在规律自身，学习过程就是为了找出或逼近真相
学习器（learner）：模型的另一种说法，可以看作学习算法在给定数据和参数空间上的实例化
标记（label）：示例结果的信息
样例（example）：拥有了标记信息的示例，用(x_i, y_i)表示第i个样例，其中y_i∈Y是示例x_i的标记
标记空间（label space）/ 输出空间：所有标记的集合，用Y表示
分类（classification）：预测的是离散值的学习任务
回归（regression）：预测的是连续值的学习任务
测试（testing）：学得模型后使用其进行预测的过程
测试样本（testing sample）：被预测的样本
聚类（clustering）：对即将用于训练的样本分成若干组，每组称为一个簇（cluster），这些自动形成的簇可能对应一些潜在的概念划分
监督学习（supervised learning）：训练数据有标记信息，分类和回归是此种学习的代表
无监督学习（unsupervised learning）：训练数据没有标记信息，聚类是此种学习的代表
泛化（generalization）：学得模型适用与新样本的能力

1.3 假设空间
归纳（induction）：从特殊到一半的泛化过程，即从具体事实归结出一般性规律
演绎（deduction）：从一般到特殊的特化（specialization）过程，即从基础原理推演出具体情况
归纳学习（inductive learning）：从样例中学习
假设空间（hypothesis space）：由输入空间到输出空间的映射的集合
版本空间（version space）：与训练集一致的假设集合
1.4 归纳偏好
归纳偏好（inductive bias）：机器学习算法在学习过程中对某种类型假设的偏好

课后习题
《机器学习》第一章绪论总结