增强学习可以看知乎文章:https://www.zhihu.com/

 

增强学习的应用:自动驾驶

 

深度增强学习

 8个方向+速度:模型推断出方向和速度,决策交给AI

自动驾驶的两个流派:Rule based,End to End Deep learning。

发展趋势:两个流派融合,找到折中点。

硬件支持:低功耗,激光雷达,双雾摄像头,Mobieye,车载的GPU

 

Rule Based:成本高,可靠性高

全新生态:AI公司做无人车,外包给车厂

 

无人车:蔚来ES8无人车(江淮代工),特斯拉

AI车的未来:构建生态(AI公司+车厂)

 

End to End:成本低,可靠性低

输入一张图片,预测向左向右,速度等

找个模型,训练行车记录仪的记录+交通标志,然后做决策:方向+速度

 

强化学习最著名的应用:2016年的alpha go

 

 

深度增强学习

深度增强学习

深度增强学习

 

https://cn.bing.com/?ensearch=1&FORM=BEHPTB

选国际版 搜索 cnn js跳转至

https://cs.stanford.edu/people/karpathy/convnetjs/

深度增强学习

 

自动驾驶项目实战:英维达模型,调下参数,训练行车记录仪的记录+交通标志,然后做决策:方向+速度 
模型:
https://github.com/search?q=self+driving

深度增强学习
租车跑自动驾驶

 

移动电话的神经网络库:
2016 年 11 月,Facebook 就已经发布了一个称为 Caffe2Go 的架构
Google Tensorflow Lite 是第二个可在移动电话端运行的深度学习工具
https://www.infoq.cn/article/2017/05/google-tensorflow-lite

================================================================================================

强化学习----控制论学派

 

深度增强学习

深度增强学习

 

深度增强学习

强化学习:所有的事情都是基于反馈的,打分:奖励或惩罚。

三个基本要素:动作A--智能体,状态S---环境,奖励值R---即时奖励

深度增强学习

 

 

深度增强学习

 找宝藏的代码:

深度增强学习

 

深度增强学习

 

 深度增强学习

 

深度增强学习 

 逻辑思维:递推关系

 

深度增强学习

 

MDP:Markov Decision Process 马尔可夫决策过程

 

深度增强学习

蒙特卡洛方法的一个特点就是需要运行完整个episode从而获得准确的result。但是往往很多场景下要运行完整个episode是很费时间的。

 

 

强化学习实现:自动调参,自动选择模型,自动设计神经网络。

找到强化学习的三大基本要素!!!!

KNN的三大基本要素:,A:选参数,S:定义搜索空间,R:奖励值
定义好动作空间,状态空间,奖励值

空间搜索  outscaling

AI发展趋势:AI中的AI,自动化AI:google 的auto-ML,华为的Model-Art

 

进化算法:google的NAS(Network Architech Search)
谷歌推出的NASNet架构,用于大规模图像分类和识别。NASNet架构特点是由两个AutoML设计的Layer组成——Normal Layer and Reduction Layer,这样的效果是不再需要相关专家用human knowledge来搭建卷积网络架构,直接用RNN把Hyperparameter计算出来,这样就实现了AI自动学习。

 

 

强化学习的两大公司:open AI,open Mind

 

深度增强学习

深度增强学习

深度增强学习

 

 

 

深度增强学习

 

 

百度的 Apollo 阿波罗平台

英伟达的DAVE2

 

目标检测的3个系列:1~4;5~6;7

深度增强学习

 深度增强学习 

https://blog.csdn.net/meyh0x5vDTk48P2/article/details/79607890 

相关文章: