邱锡鹏《神经网络与深度学习》笔记（自用）

一.绪论

1.人工智能的诞生

　　人工智能这个学科的诞生有着明确的标志性事件，就是 1956 年的达特茅斯（Dartmouth）会议．在这次会议上，“人工智能”被提出并作为本研究领域的名称．同时，人工智能研究的使命也得以确定．John McCarthy提出了人工智能的定义：人工智能就是要让机器的行为看起来就像是人所表现出的智能行为一样

2.图灵测试

　　“一个人在不接触对方的情况下，通过一种特殊的方式和对方进行一系列的问答．如果在相当长时间内，他无法根据这些问题判断对方是人还是计算机，那么就可以认为这个计算机是智能的”

3.人工智能的流派

　（1）符号主义（Symbolism），又称逻辑主义、心理学派或计算机学派，是指通过分析人类智能的功能，然后用计算机来实现这些功能的一类方法．符号主义有两个基本假设：

　　a）信息可以用符号来表示；

　　b）符号可以通过显式的规则（比如逻辑运算）来操作．人类的认知过程可以看作符号操作过程．在人工智能的推理期和知识期，符号主义的方法比较盛行，并取得了大量的成果．

　（2）连接主义（Connectionism），又称仿生学派或生理学派，是认知科学领域中的一类信息处理的方法和理论．在认知科学领域，人类的认知过程可以看作一种信息处理过程．连接主义认为人类的认知过程是由大量简单神经元构成的神经网络中的信息处理过程，而不是符号运算．因此，连接主义模型的主要结构是由大量简单的信息处理单元组成的互联网络，具有非线性、分布式、并行化、局部性计算以及自适应性等特性．

　　符号主义方法的一个优点是可解释性，而这也正是连接主义方法的弊端．深度学习的主要模型神经网络就是一种连接主义模型．随着深度学习的发展，越来越多的研究者开始关注如何融合符号主义和连接主义，建立一种高效并且具有可解释性的模型．

4.表示学习

　　为了提高机器学习系统的准确率，我们就需要将输入信息转换为有效的特征，或者更一般性地称为表示（Representation）．如果有一种算法可以自动地学习出有效的特征，并提高最终机器学习模型的性能，那么这种学习就可以叫作表示学习（Representation Learning）。表示学习的关键是解决语义鸿沟（Semantic Gap）问题．语义鸿沟问题是指输入数据的底层特征和高层语义信息之间的不一致性和差异性。深度神经网络的从输入到输出的每一层可以看作是特征从底层到高层的过程。

表示学习中的One-hot vs Word embedding

5.端到端学习

　　在一些复杂任务中，传统机器学习方法需要将一个任务的输入和输出之间人为地切割成很多子模块（或多个阶段），每个子模块分开学习．比如一个自然语言理解任务，一般需要分词、词性标注、句法分析、语义分析、语义推理等步骤．这种学习方式有两个问题：一是每一个模块都需要单独优化，并且其优化目标和任务总体目标并不能保证一致；二是错误传播，即前一步的错误会对后续的模型造成很大的影响．这样就增加了机器学习方法在实际应用中的难度．

　　端到端学习（End-to-End Learning），也称端到端训练，是指在学习过程中不进行分模块或分阶段训练，直接优化任务的总体目标．在端到端学习中，一般不需要明确地给出不同模块或阶段的功能，中间过程不需要人为干预．端到端学习的训练数据为“输入-输出”对的形式，无须提供其他额外信息．因此，端到端学习和深度学习一样，都是要解决贡献度分配问题．目前，大部分采用神经网络模型的深度学习也可以看作一种端到端的学习．

6.感知机

　　可以理解成只有一层，没有激活函数的神经网络，多层感知机（Muti-layer Perceptron简称MLP）就是前馈神经网络

二.机器学习概述

1.模式识别

在早期的工程领域，机器学习也经常称为模式识别（Pattern Recognition， PR），但模式识别更偏向于具体的应用任务，比如光学字符识别、语音识别、人脸识别等．这些任务的特点是，对于我们人类而言，这些任务很容易完成，但我们不知道自己是如何做到的，因此也很难人工设计一个计算机程序来完成这些任务．一个可行的方法是设计一个算法可以让计算机自己从有标注的样本上学习其中的规律，并用来完成各种识别任务．随着机器学习技术的应用越来越广，现在机器学习的概念逐渐替代模式识别，成为这一类问题及其解决方法的统称

2.风险最小化准则

经验风险最小化（Empirical Risk Minimization，ERM）准则：

模型f(x)关于训练数据集的平均损失成为经验风险或经验损失：

结构风险最小化（Structure Risk Minimization，SRM）准则：

结构风险在经验风险的基础上加上表示模型复杂度的正则化项。在假设空间、损失函数以及训练集确定的情况下，结构风险的定义是：

其中，J(f)为模型的复杂度，是定义在假设空间上的泛函。模型f越复杂，复杂度J(f)就越大。也就是说，复杂度表示了对复杂模型的惩罚。结构风险小的模型往往对训练数据和未知的测试数据都有较好的预测。

其中J可以是f参数向量的范数

期望风险：

期望风险评估的是当前模型（也就是映射函数）在真实数据分布下预测的损失Loss的期望，既然说的是在真实数据分布下的误差，那也就是说模型的真实误差

泛化错误：

是期望错误和经验错误之间的差异，称为泛化错误（Generalization Error）

3.PAC学习

　　当使用机器学习方法来解决某个特定问题时，通常靠经验或者多次试验来选择合适的模型、训练样本数量以及学习算法收敛的速度等．但是经验判断或次试验往往成本比较高，也不太可靠，因此希望有一套理论能够分析问题难度、计算模型能力，为学习算法提供理论保证，并指导机器学习模型和学习算法的设计．这就是计算学习理论．计算学习理论（Computational Learning Theory）是机器学习的理论基础，其中最基础的理论就是可能近似正确（Probably Approximately Correct，PAC）学习理论

　　一个PAC 可学习（PAC-Learnable）的算法是指该学习算法能够在多项式时间内从合理数量的训练数据中学习到一个近似正确的