人工智能导论复习整理（二）

机器学习

概论

人工智能完成日常生活中的任务（Formal tasks, Expert tasks, Mundane tasks, Human tasks）所要做的工作是：

感知环境
特征提取
机器学习
推理
采取行动

*机器学习只是人工智能的一个子集，而深度学习又是机器学习的一个子集，或者说，是机器学习中神经网络的一种延伸。

观察人工智能发展的四个阶段：

初期阶段
- 通用问题求解、机器翻译、定理证明、博弈、游戏
知识时代
- 专家系统、知识工程、知识表示、（不确定性）推理
特征时代
- 统计机器学习方法、优化技术、特征映射（浅层）、特征工程
数据时代
- 深度学习、表示学习、自动特征抽取、不同层次的抽象特征、抽象映射（深层）

在初期阶段，输入和输出之间，程序是由人来实现的，计算机只是作为一个执行者。

到了特征时代，输入输出间，特征是人为提供的，但是特征映射是由机器自动实现的。

而在数据时代，输入输出间，特征、特征分析、特征映射完全都由机器自己实现，人为介入的成分越来越少。

传统机器学习和深度学习对比：

人工智能导论复习整理（二）

传统的机器学习中，特征提取和分类是分成两个步骤分别实现的。

人工智能导论复习整理（二）

而在深度学习下，原有的两部分合二为一。对深度神经网络给出输出，可以直接得到结果。

深度神经网络的性能：

人工智能导论复习整理（二）

研究表明，随着数据量的增大，深度神经网络的性能会越来越好。在数据规模较小的时候，传统算法（如决策树等）和神经网络的性能相差无几。数据规模变大后，深度神经网络的性能要明显优于传统算法。对于神经网络而言，其规模越大，对于大数据的处理性能越好。

损失函数（又称代价函数、目标函数）

损失函数用来衡量模型的好坏。其值越高， $W$ 越差；其值越低， $W$ 越好。

两种常用的损失函数为：

Hinge loss（Multiclass SVM Loss）
Cross-entropy loss

Hinge loss（Multiclass SVM Loss）

设定一个delta作为安全距离，如果正确标签的得分比其他得分高出的值大于delta，则Loss值为0，否则将多出来的部分记为Loss。即
$L=\dfrac{1}{N}\sum_{i=1}^{N}\sum_{j\neq y_i}\max(0,f(x_i;W)_j-f(x_i;W)_{y_i}+\text{delta})$
注意，使得 $L=0$ 的 $W$ 不唯一，比如 $2W$ 也满足条件。要选择合适的 $W$ ，此时需要用正则化。

数据损失：使得模型预测尽可能匹配训练数据。这是损失函数的作用。

正则化：避免模型在训练数据上做得太好，即发生过拟合；提高泛化能力。

正则化后得到的损失函数为：
$L(W)=\dfrac{1}{N}\sum_{i=1}^NL_i(f(x_i,W),y_i)+\lambda R(W)$
$\lambda$ 是一个超参数，需要人为给定，表示正则化强度。

正则化的作用：

计算参数
使得模型更简单
使得模型更平滑，以优化

正则化函数的部分例子：

L2正则化： $R(W)=\sum_k\sum_lW_{k,l}^2$
L1正则化： $R(W)=\sum_k\sum_l|W_{k,l}|$
(L1+L2)： $R(W)=\sum_k\sum_l\beta W_{k,l}^2+|W_{k,l}|$

Cross-entropy loss: Softmax Classifier

模型训练完后会有一个得分 $s=f(x_i;W)$ 。

使用Softmax函数：
$P(Y=k|X=x_i)=\dfrac{e^{s_k}}{\sum_je^{s_j}}$
将得分转变成概率。

最后由概率计算得到loss值：
$L_i=-\log P(Y=y_i|X=x_i)$

总结

机器学习的步骤：

采集数据且特征提取
建立模型
优化（最小化loss值）

特征提取的两种方式：

手动设置特征向量 $(x,y)$
tmax函数：
$P(Y=k|X=x_i)=\dfrac{e^{s_k}}{\sum_je^{s_j}}$
将得分转变成概率。

最后由概率计算得到loss值：
$L_i=-\log P(Y=y_i|X=x_i)$

总结

机器学习的步骤：

采集数据且特征提取
建立模型
优化（最小化loss值）

特征提取的两种方式：

手动设置特征向量 $(x,y)$
通过原始数据中直接学出特征（表示学习）