基本术语

以西瓜数据集为例进行练习:

机器学习 基本术语

要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据:
{颜色=乌黑,敲声=浊响}
{颜色=青绿,敲声=清脆}

【基础概念 1】将这组记录的集合称为一个“ 数据集”(data set),其中每条记录是关于一个事件或对象(这里说的是西瓜)的描述,也称为一个“样本”(sample)。

【基础概念 2】而我们所说的西瓜的色泽,这种可以反应事件或对象在某方面的表现或性质的事项,称为“ 特征”(feature)或“ 属性”(attribute)”属性上的取值,如色泽青绿等,这个取值称为 属性值(attribute value)。

【基础概念 3】属性构成的空间称为“ 属性空间”或样本空间(sample space)或输入空间。比如将西瓜的颜色,敲声作为两个坐标轴,则它们可以张成一个用于描述西瓜的二维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中的每个点都对应一个坐标向量,因此我们也把一个样本称作一个“ 特征向量”(feature vector)。

机器学习 基本术语

【基础概念 4】从数据中学得模型得过程称为“ 学习”(learning)或 训练(training),这个过程是通过执行某个学习算法来完成的。训练过程中使用的数据称为“ 训练数据”(training set)。
训练数据:由输入 X 与输出 Y 对组成。训练集在数学上表示为:

T={(x1,y1),(x2,y2),...,(xN,yN)}

【基础概念 5】 模型有时也称为“ 学习器”(learner),可以看作是学习算法在给定数据和参数空间上的实例化。

【基础概念 6】如果希望学得一个能帮助我们判断西瓜是不是“好瓜”的模型,仅仅有前面的样本数据是不够的,要建立这样的关于“预测(prediction)”的模型,我们需要获得训练样本的“结果”信息,如:{(颜色=青绿,敲声=浊响),好瓜}。这里的结果信息,称为样本的“ 标记(label)”;拥有了标记信息的样本,则称为“ 样例(example)”。

(x1,x2,...,xi,yi)iyix(labelspace)

学习完模型后,就需要进行预测,预测的过程称为“测试”(testing),被预测的样本称为“ 测试样本”(testing sample)。

测试数据: :也是由输入 X 与输出 Y 组成,是用于测试训练好的模型对于新数据的预测能力。 例如在中学阶段的函数可表示为 y=f(x),这里的 f 指的是通过学习得到的模型,对于测试 x,可得到其预测标记 y=f(x)。

喜欢就点赞评论+关注吧

机器学习 基本术语

感谢阅读,希望能帮助到大家,谢谢大家的支持!

相关文章: