机器学习基本术语

基本术语

以西瓜数据集为例进行练习：

机器学习基本术语

要进行机器学习，先要有数据。假定我们收集了一批关于西瓜的数据：
{颜色=乌黑，敲声=浊响}
{颜色=青绿，敲声=清脆}

【基础概念 1】将这组记录的集合称为一个“ 数据集”（data set），其中每条记录是关于一个事件或对象（这里说的是西瓜）的描述，也称为一个“样本”（sample）。

【基础概念 2】而我们所说的西瓜的色泽，这种可以反应事件或对象在某方面的表现或性质的事项，称为“ 特征”（feature）或“ 属性”（attribute）”属性上的取值，如色泽青绿等，这个取值称为属性值（attribute value）。

【基础概念 3】属性构成的空间称为“ 属性空间”或样本空间（sample space）或输入空间。比如将西瓜的颜色，敲声作为两个坐标轴，则它们可以张成一个用于描述西瓜的二维空间，每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中的每个点都对应一个坐标向量，因此我们也把一个样本称作一个“ 特征向量”（feature vector）。

机器学习基本术语

【基础概念 4】从数据中学得模型得过程称为“ 学习”（learning）或训练（training），这个过程是通过执行某个学习算法来完成的。训练过程中使用的数据称为“ 训练数据”（training set）。
训练数据：由输入 X 与输出 Y 对组成。训练集在数学上表示为：

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

【基础概念 5】模型有时也称为“ 学习器”（learner），可以看作是学习算法在给定数据和参数空间上的实例化。

【基础概念 6】如果希望学得一个能帮助我们判断西瓜是不是“好瓜”的模型，仅仅有前面的样本数据是不够的，要建立这样的关于“预测（prediction）”的模型，我们需要获得训练样本的“结果”信息，如：{（颜色=青绿，敲声=浊响），好瓜}。这里的结果信息，称为样本的“ 标记（label）”；拥有了标记信息的样本，则称为“ 样例（example）”。

用 (x_{1}, x_{2}, . . ., x_{i}, y_{i}) 表 示 第 i 个 样 例 ， y_{i} 是 样 本 x 的 标 识 ， 一 般 把 标 记 的 集 合 称 为 标 记 空 间 (l a b e l s p a c e) 或 输 出 空 间 。

学习完模型后，就需要进行预测，预测的过程称为“测试”（testing），被预测的样本称为“ 测试样本”（testing sample）。

测试数据：：也是由输入 X 与输出 Y 组成，是用于测试训练好的模型对于新数据的预测能力。例如在中学阶段的函数可表示为 y=f(x)，这里的 f 指的是通过学习得到的模型，对于测试 x，可得到其预测标记 y=f(x)。

喜欢就点赞评论+关注吧

机器学习基本术语

感谢阅读，希望能帮助到大家，谢谢大家的支持！