深度学习第二章神经网络

深度学习第二章神经网络

1.梯度下降

目标：找到山坡最低点
- 套路：小学习率，大迭代次数
- 代码：

深度学习第二章神经网络

批处理
- 数值：通常是2的整数倍（32，64，128）
- 原因：
  - 如果只使用一张图像进行迭代，该图像可能是噪音或离群点，导致更新效果不好；
  - 在兼顾速度和效果的条件下，采用批处理，尽可能每次迭代朝着最好的方向
- 可视化效果

深度学习第二章神经网络

2.学习率

epoch：整个训练集循环迭代次数
batchsize：100个（举个例子，实际还是2的倍数），5万的数据需要迭代500次

深度学习第二章神经网络

3.反向传播

说明：寻找梯度下降的方向，更新W
法则：链式法则
例子1：
- x增大一倍，最终结果减小4倍

深度学习第二章神经网络

例子2：含sigmoid函数

深度学习第二章神经网络

例子3：门单元

深度学习第二章神经网络

4.神经网络

数学表达

深度学习第二章神经网络

层次结构
- 说明：输入层，隐含层（多个），输出层
- 关键：每层加**函数去线性

深度学习第二章神经网络

作用：自动特征提取（层层提取特征）
特点：
- 全连接
- 非线性（**函数），可以用relu
例子

深度学习第二章神经网络

正则化
- 问题：噪声点、离群点等会造成分割平面奇怪，造成过拟合
- 实际情况：没有办法保证所有数据纯净
- 期望：模型越平稳越好，泛化能力强（权重参数值越大，上下波动越大，越不平稳）
- 作用：惩罚权重参数，lamda是惩罚力度
  - lamda越大，惩罚力度越大，权重参数越小，模型越平稳，（但是过大会造成欠拟合)

深度学习第二章神经网络

**函数
- sigmoid函数
  - 问题：当x越大，对应的梯度越接近于0，反向传播，梯度消失
  - 方法：使用新**函数

深度学习第二章神经网络

- relu函数（通用）
  - 优点：梯度不会消失，梯度给最大值；计算简单

深度学习第二章神经网络

数据预处理
- 原始数据—以0为中心—归一化（各维度数据同等重要）

深度学习第二章神经网络

- 权重初始化
  - 不能全0，一般是全部同一常数初始化（正反传播一样，参数朝着一个方向更新）
  - 随机初始化，常用高斯初始化
dropout （防止过拟合）
- 选择一部分神经元进行更新，另一部分保持不变
- 每次选择随机，选择更新的神经元比例保持不变

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode