《深度学习》学习笔记【第一章：引言】1.2 深度学习的历史发展趋势

声明：仅用于自学。部分内容来自于网络，如有问题，请联系删除。

英文原文的官方网站，仅供参考：https://www.deeplearningbook.org/

第一章：引言

1.2 深度学习的历史发展趋势

通过历史背景理解深度学习是最简便的方式。我们没有提供深度学习的详细历史，而是给出了一些关键性的发展趋势：

深度学习具有悠久而丰富的历史，但是已经更换了很多次名字，这些不同的名字反映了不同的哲学观点，随着时代的进步，很多的哲学观点已经渐渐消失，与之对应的名字也逐渐被淡忘。
深度学习随着可用训练数据量的增加，变得越来越有用。
随着计算机基础设施（硬件和软件）的改善，时间的推移，深度学习模型的规模也随之增长。
随着时间的推移，深度学习已经解决了越来越复杂的应用，并且精度也越来越准确。

1.2.1 神经网络的诸多名称和命运变迁

作为一项激动人心的新技术，我们希望书的许多读者都已听说过深度学习，并且对看到一本关于新兴领域的书中提到了“历史”而产生兴趣。实事上，深度学习可以追溯到1940年代。深度学习只是看起来新，因为相较于当前的主流，它在之前的几年没那么大的名气，并且因为它已经使用了许多不同的名称，直到最近才被称为“深度学习”。该领域已经历多次的重新打造，也反映了不同研究人员和不同视角的影响。
全面的深度学习历史超出了本书的范围，但是一些基本背景对于理解深度学习很有用。广义上讲，已经出现了三波发展浪潮：1940年代至1960年代的深度学习称为控制论(cyberbernetics)，1980年至1990年代的深度学习称为联结主义(connectionism)，以及从2006年开始以深度学习为名复兴。图1.7定量地说明了这一点。

《深度学习》学习笔记【第一章：引言】1.2 深度学习的历史发展趋势
图1.7：根据谷歌图书的数据——“控制论”，“联结主义”或“神经网络”等词的出现频率。图中展现了人工神经网络研究的三个历史浪潮中的前两个（第三次浪潮直到最近才出现）。第一个浪潮始于1940年代至1960年代的控制论，随着生物学习理论的发展（麦卡洛克和皮茨，1943；赫布，1949）以及诸如感知器（罗森布拉特，1958）之类的第一个模型的实现，支持对单个神经元的训练。第二波是从1980-1995年的联结主义方法开始的，然后是反向传播（鲁梅尔哈特等人，1986a）来训练具有一个或两个隐藏层的神经网络。当前和第三次深度学习浪潮始于2006年左右（辛顿等人，2006；本吉奥等人，2007；与兰扎等人，2007a），并且以书的形式出现在如今的2016年中。前两次浪潮类似以书的形式出现则比相应的科学活动晚得多。

我们今天认识到的某些最早期的学习算法，旨在成为生物学习的计算模型，即大脑怎么学习和为什么能学习的模型。结果，人工神经网络（artiﬁcial neural networks ANNs）成为了深度学习的名称之一，而后逐渐消逝。那时，深度学习模型被认为是是受生物大脑（无论是人脑还是其他物种的大脑）启发而设计出来的工程系统。虽然有时将用于机器学习的神经网络种类用来理解脑功能（辛顿和索利斯，1991年）, 但它们通常没有设计成真实的生物学功能模型。深度学习的神经观点是由两个主要思想驱动的。一个想法是，大脑以身作则证明了智能行为是可能的，从概念上讲，构建智能的直接途径是对大脑背后的计算原理进行****并复制其功能。另一个观点是，了解大脑和构成人类智能背后的原理将非常有趣，因此，机器学习模型除了具备解决工程应用程序的能力外，对于基础科学问题的进一步认识上也非常有用。
现代术语“深度学习”超越了当前机器学习模型的神经科学视角。它吸收了一个更通用的学习多层构图的原则，该原则可以应用在非受神经启发的机器学习框架中。
现代深度学习的最早前身是从神经科学角度出发的简单线性模型。这些模型设计为采用一组n个输入值 $x_1,...,x_n$ 并将它们与输出关联。这些模型将学习一组权重 $w_1,...,w_n$ ，最后计算它们的输出 $f(x,w)=x_1w_1+...+x_nw_n$ 。神经网络的第一波研究被称为控制论，如图1.7所示。
McCulloch-Pitts神经元模型（麦卡洛克和皮茨，1943年）是大脑功能的早期模型。该线性模型可以通过判断 $f(x，w)$ 是正还是负来识别两个不同类别的输入。当然，要使模型输出与与对应的类别相一致，就需要正确设置权重。这些权重可以由程序员设置。在1950年代，感知器（罗森布拉特，1958年，1962年）成为第一个可以学习权重的模型，可以根据每个类别的输入样本来学习出权重。自适应线性单元（adaptive linear element ADALINE）大约在同一时间产生出现，仅返回值 $f(x)$ 本身就可以预测一个实数（维德罗兰德和霍夫，1960年），并且还可以学习从这些数据中预测这些数。
这些简单的学习算法极大地影响了机器学习的现代前景。用于调整自适应线性单元权重的训练算法是一种称为随机梯度下降(stochastic gradient descent)算法的一种特例。稍加修改的随机梯度下降算法仍然是当今深度学习模型的主要训练算法。
基于感知器和适应线性单元中使用的函数 $f(x，w)$ 的模型称为线性模型(linear models)。尽管在许多情况下，与原始模型相比，它们采用了一些新的不同的方式进行训练。但是这些模型仍然是一些使用最广泛的机器学习模型。
线性模型有很多限制。最著名的是，他们无法学习异或(XOR)函数，即 $f([0,1],w)=1,f([1,0],w)=1$ ，但是 $f([1,1],w)=0,f([0,0],w)=0$ 。在线性模型中观察到这些缺陷的评论家普遍反对生物学启发的学习（明斯基和帕佩特，1969）。这是神经网络普及的第一次浪潮的大衰退。
如今，神经科学已被视为深度学习研究人员的重要灵感来源，但它不再是该领域的最为主要的灯塔了。
现在，神经科学在深度学习研究中作用减弱的主要原因是，我们根本没有足够的大脑信息来将其用作指导。为了深入了解大脑使用的实际算法，我们需要能够同时监视（至少）数千个互连神经元的活动。因为如果我们不这么做，我们甚至不能了解大脑的某些最简单且最深入研究的部分（奥尔斯豪森和菲尔德，2005）。
神经科学使我们有理由希望一种深度学习算法可以解决许多不同的任务。神经科学家发现，如果雪貂的大脑重新连接，将视觉信号传达到听觉区域，它们便可以学会用听觉处理区域去“观察”（冯.梅尔切纳等，2000）。这表明，许多哺乳动物的大脑可能使用一种简单算法就能解决大脑所解决的大多数的不同任务。在此假设之前，机器学习研究更加分散，不同的研究者社区对自然语言处理，视觉，运动规划和语音识别进行了研究。今天，这些应用程序社区仍然是独立的，但是深度学习研究小组通常同时研究许多甚至所有这些应用程序领域是很常见的。