【Google 机器学习笔记】三、深入了解机器学习

本节主要介绍线性回归以及训练（Train）与损失（Loss）

线性关系：两个变量之间存在一次方函数关系，就称它们之间存在线性关系。例如，对于：
$y=mx+b$ 我们称 $x$ 与 $y$ 之间存在线性关系。
在ML中，线性关系的模型方程式一般表示如下：
$y'=w_1x_1+b$

可以用多个特征来表示更复杂的模型。例如，具有n个特征的线性关系模型可以采用以下方程式：
$y'=b+w_1x_1+w_2x_2+…+w_nx_n，n\in\mathbb{N_+}$

训练【Train】：简单来说，训练模型表示通过有标签样本来学习（确定）所有权重和偏差的理想值。在监督式学习中，机器学习算法通过以下方式构建模型：检查多个样本并尝试找出可最大限度地减少损失的模型；这一过程称为经验风险最小化。

损失【Loss】：一个数值，表示对于单个样本而言模型预测的准确程度。如果模型的预测完全准确，则损失为零，否则存在损失。（因而训练模型的目标是从所有样本中找到一组平均损失“较小”的权重和偏差。）
关于损失的理解，可以用下图来表示：
红色箭头表示损失，蓝线表示预测。
可以看到，左侧模型的损失较大，而右侧模型的损失较小。
如何衡量损失？
衡量损失的方法有很多，这里列举几个比较常用的函数：L₁损失函数，L₂损失函数，均方误差（MSE）……
L₁损失函数：也被称为最小绝对值偏差（LAD），最小绝对值误差（LAE）。公示表示如下，其中 $y$ 表示真实标签：
$L_1=\sum_{i=1}^n|y-y'|$
L₂损失函数：也被称为最小平方误差（LSE），平方损失。公示表示如下：
$L_2=\sum_{i=1}^n(y-y')^2$
均方误差 (MSE)：指的是每个样本的平均平方损失。要计算 MSE，先求出各个样本的所有L₂损失之和，然后除以样本数量：
$MSE=\frac 1n\sum_{i=1}^n(y-y')^2=\frac 1nL_2$

上一篇：【Google 机器学习笔记】二、机器学习主要术语
下一篇：【Google 机器学习笔记】四、降低损失（勤奋一点的话预计15-17号更新，懒得话……）