深度学习问题

1 梯度下降算法的正确步骤：

a.用随机值初始化权重和偏差

b.把输入传入网络，得到输出值

c.计算预测值和真实值之间的误差

d.对每一个产生误差的神经元，调整相应的（权重）值以减小误差

e.重复迭代，直至得到网络权重的最佳值

2、已知： - 大脑是有很多个叫做神经元的东西构成，神经网络是对大脑的简单的数学表达。 - 每一个神经元都有输入、处理函数和输出。 - 神经元组合起来形成了网络，可以拟合任何函数。 - 为了得到最佳的神经网络，我们用梯度下降方法不断更新模型给定上述关于神经网络的描述，什么情况下神经网络模型被称为深度学习模型？

A.加入更多层，使神经网络的深度增加 B.有维度更高的数据

C.当这是一个图形识别的问题时 D.以上都不正确

解析：正确答案A，更多层意味着网络更深。没有严格的定义多少层的模型才叫深度模型，目前如果有超过2层的隐层，那么也可以及叫做深度模型。

3、训练CNN时，可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。这么说是对，还是不对？

A.对 B.不对

解析：对。训练CNN时，可以进行这些操作。当然也不一定是必须的，只是data augmentation扩充数据后，模型有更多数据训练，泛化能力可能会变强。

4、下面哪项操作能实现跟神经网络中Dropout的类似效果？

A.Boosting B.Bagging C.Stacking D.Mapping

解析：正确答案B。Dropout可以认为是一种极端的Bagging，每一个模型都在单独的数据上训练，同时，通过和其他模型对应参数的共享，从而实现模型参数的高度正则化。

Bagging算法

以下引用自http://lib.csdn.net/article/machinelearning/35135

bagging方法bootstrap aggregating的缩写，采用的是随机有放回的选择训练数据然后构造分类器，最后组合。这里以随机森林为例进行讲解。

随机森林算法概述

随机森林算法是上世纪八十年代Breiman等人提出来的，其基本思想就是构造很多棵决策树，形成一个森林，然后用这些决策树共同决策输出类别是什么。随机森林算法及在构建单一决策树的基础上的，同时是单一决策树算法的延伸和改进。在整个随机森林算法的过程中，有两个随机过程，第一个就是输入数据是随机的从整体的训练数据中选取一部分作为一棵决策树的构建，而且是有放回的选取；第二个就是每棵决策树的构建所需的特征是从整体的特征集随机的选取的，这两个随机过程使得随机森林很大程度上避免了过拟合现象的出现。

随机森林算法具体的过程：

1、从训练数据中选取n个数据作为训练数据输入，一般情况下n是远小于整体的训练数据N的，这样就会造成有一部分数据是无法被去到的，这部分数据称为袋外数据，可以使用袋外数据做误差估计。

2、选取了输入的训练数据的之后，需要构建决策树，具体方法是每一个分裂结点从整体的特征集M中选取m个特征构建，一般情况下m远小于M。

3、在构造每棵决策树的过程中，按照选取最小的基尼指数进行分裂节点的选取进行决策树的构建。决策树的其他结点都采取相同的分裂规则进行构建，直到该节点的所有训练样例都属于同一类或者达到树的最大深度。

4、重复第2步和第3步多次，每一次输入数据对应一颗决策树，这样就得到了随机森林，可以用来对预测数据进行决策。

5、输入的训练数据选择好了，多棵决策树也构建好了，对待预测数据进行预测，比如说输入一个待预测数据，然后多棵决策树同时进行决策，最后采用多数投票的方式进行类别的决策。

随机森林算法图示

深度学习问题

随机森林算法的注意点：

1、在构建决策树的过程中是不需要剪枝的。

2、整个森林的树的数量和每棵树的特征需要人为进行设定。

3、构建决策树的时候分裂节点的选择是依据最小基尼系数的。

随机森林有很多的优点：

a. 在数据集上表现良好，两个随机性的引入，使得随机森林不容易陷入过拟合。

b. 在当前的很多数据集上，相对其他算法有着很大的优势，两个随机性的引入，使得随机森林具有很好的抗噪声能力。

c. 它能够处理很高维度（feature很多）的数据，并且不用做特征选择，对数据集的适应能力强：既能处理离散型数据，也能处理连续型数据，数据集无需规范化。

d. 在创建随机森林的时候，对generlization error使用的是无偏估计。

e. 训练速度快，可以得到变量重要性排序。 f. 在训练过程中，能够检测到feature间的互相影响。 g 容易做成并行化方法。 h. 实现比较简单。

5、下列哪一项在神经网络中引入了非线性？

A.随机梯度下降 B.修正线性单元（ReLU） C.卷积函数 D.以上都不正确

解析：正确答案B。修正线性单元是非线性的**函数。

6、CNN的卷积核是单层的还是多层的？

解析：一般而言，深度卷积网络是一层又一层的。层的本质是特征图, 存贮输入数据或其中间表示值。一组卷积核则是联系前后两层的网络参数表达体, 训练的目标就是每个卷积核的权重参数组。描述网络模型中某层的厚度，通常用名词通道channel数或者特征图feature map数。不过人们更习惯把作为数据输入的前层的厚度称之为通道数（比如RGB三色图层称为输入通道数为3），把作为卷积输出的后层的厚度称之为特征图数。

卷积核(filter)一般是3D多层的，除了面积参数, 比如3x3之外, 还有厚度参数H（2D的视为厚度1). 还有一个属性是卷积核的个数N。卷积核的厚度H, 一般等于前层厚度M(输入通道数或feature map数). 特殊情况M > H。卷积核的个数N, 一般等于后层厚度(后层feature maps数，因为相等所以也用N表示)。卷积核通常从属于后层，为后层提供了各种查看前层特征的视角，这个视角是自动形成的。卷积核厚度等于1时为2D卷积，对应平面点相乘然后把结果加起来，相当于点积运算；卷积核厚度大于1时为3D卷积，每片分别平面点求卷积，然后把每片结果加起来，作为3D卷积结果；1x1卷积属于3D卷积的一个特例，有厚度无面积, 直接把每片单个点乘以权重再相加。归纳之，卷积的意思就是把一个区域，不管是一维线段，二维方阵，还是三维长方块，全部按照卷积核的维度形状，对应逐点相乘再求和，浓缩成一个标量值也就是降到零维度，作为下一层的一个feature map的一个点的值！

7、什么是卷积？

解析：对图像（图像由矩阵构成）和滤波矩阵（一组固定的权重：因为每个神经元的多个权重固定，所以又可以看做一个恒定的滤波器filter）做内积（逐个元素相乘再求和）的操作就是所谓的『卷积』操作，也是卷积神经网络的名字来源。

8、什么是CNN的池化pool层？

解析：池化，简言之，即取目标区域平均或最大。