机器学习课程笔记（一）导论

符号与名词定义

有监督学习的输入被称作input variables, features, attributes，有监督学习的输出被称作output, variables,targets，输入+输出被称作training example,instance。所有的输入输出对的集合被称作training data set。
我们用代表输入，代表输出。有监督学习的过程为了找到一个函数。在这里是的一个good predicator。h被称为hypothesis。
有监督学习问题是按照输出进行分类的
- 输出是实数空间，则是回归问题(regression)。
- 输出是离散空间，则是分类问题(classification)。
- 输出更为复杂，则是structured prediction。

机器学习的分类

有监督学习(supervised learning)
- 本质上就是从带有标签的数据集中，学习一个函数，将输入变量映射到输出空间。
- 依赖于人工标注的有限数据。
- 目标：在训练过程中最小化损失函数(loss function)。
强化学习(reinforment learning)
- 通过与环境的交互，获得奖励信号，进行训练。
- 目标：分析和最大化一个长期的奖励。
无监督学习(unsupervised learning)
- 通过无标签的数据进行训练。
- 可以做聚类或者降维

解决有监督学习问题的一般方法

确定输入输出
确定如何编码输入输出
选择假设类型
确定损失函数
选择一个高效的算法对解空间进行搜索

线性假设

在线性假设中，我们认为输入输出的关系h(x)可以用一个线性表达式解决。即机器学习课程笔记（一）导论。

根据前面有监督学习的优化目标，我们需要找到机器学习课程笔记（一）导论，使得误差函数最小。在这里，我们使用的是平方和误差函数。

如果我们使用梯度下降法进行搜索，那么具体的做法可见深度学习数学基础。

如果我们要求严格解的话，那么其实就是要求J(w)的梯度，令其梯度为0.

机器学习课程笔记（一）导论

w有解的条件是数据各个维度的特征是线性独立的。因此多数时候，我们只能找到近似解，而不能严格求解。

以上是线性假设的简单形式，我们把形式变换的复杂一点。

机器学习课程笔记（一）导论

在这里，我们定义了一个basic function。所有的线性关系都是和basic function有关，basic function是不变的。

过拟合与欠拟合

过拟合在机器学习中是非常重要的问题，就是我们的函数可以完美地预测训练集中的数据，但是没法泛化到整个数据集全体。

我们可以使用交叉验证的手段来帮助我们。

五折交叉验证：数据分为大致均等的5等分，每次用4等分训练，1等分用来测试，得该算法的准确度。依次轮转，计算平均的准确度。

偏置-方差分解(Bias-variance decomposition)是统计学派看待模型复杂度的观点。简单来说，一个模型的误差可以分为三个部分，偏差度量了模型的期望预测和真实结果的偏离程度，刻画了模型本身的拟合能力，方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响，噪声表达了当前任务上任何模型所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。

偏置-方差分解推导过程在此不在赘述，直接上最后的分解结果。

机器学习课程笔记（一）导论