张海峰-从博弈论到多智能体强化学习

文章目录

内容摘要
群体决策智能研究背景
博弈论
多智能体强化学习
研究展望

内容摘要

·随着以图像识别为代表的“感知智能”日趋成熟，越来越多的人工智能研究者开始关注以AlphaGo为代表的“决策智能”。在即将来临的物联网时代，群体决策智能将成为一个研究重点。
·传统上，博弈论研究的是多个智能体的理性决策问题。它定义了动作、收益等博弈基本概念，侧重分析理性智能体的博弈结果，即均衡。然而，在很多现实问题中，博弈的状态空间和动作空间都很大，智能体的绝对理性是很难实现的.智能体往往处在不断的策略学习过程中。因此，近年来兴起的多智能体强化学习主要研究智能体策略的同步学习和演化问题，它在无人机群控制、智能交通系统、智能工业机器人等场景中具有很大的应用前景。

群体决策智能研究背景

AI 发展趋势

张海峰-从博弈论到多智能体强化学习

群体智能决策问题场景

围棋、王者荣耀、星际争霸
快递仓库、无人机群、交通路口
社会中的人的决策

博弈论

博弈的定义

张海峰-从博弈论到多智能体强化学习

矩阵博弈

张海峰-从博弈论到多智能体强化学习

策略推理

张海峰-从博弈论到多智能体强化学习

博弈的解

张海峰-从博弈论到多智能体强化学习

有一组策略，如果玩家改变其中的动作，都会使收益不会上升，这样的策略组合就是纳什均衡。

张海峰-从博弈论到多智能体强化学习

张海峰-从博弈论到多智能体强化学习

协同问题

张海峰-从博弈论到多智能体强化学习

特殊的博弈：合作与竞争

张海峰-从博弈论到多智能体强化学习

多智能体强化学习

现实中的博弈

张海峰-从博弈论到多智能体强化学习

马尔科夫博弈

张海峰-从博弈论到多智能体强化学习

强化学习

张海峰-从博弈论到多智能体强化学习

学习目标一：均衡

张海峰-从博弈论到多智能体强化学习

学习目标二：协同

张海峰-从博弈论到多智能体强化学习
对对手的以往的表现后的想法有一定的推断；当前agent在做决策的时候会考虑一下对手在当前agent做了这个动作后会采取什么表现；对手也会同样这么考虑。这个是一层的考虑模型；；后续又做了一个多层的工作；

学习目标三：合作

张海峰-从博弈论到多智能体强化学习

训练时，在AC框架的Critic上，action 拿到的是所有agent的action的组合；这个Q的设置下，可以对其他的动作做一个隐含的关联。
在上图的中间图的合作场景下获得了不错的效果。

研究展望

智能体社会结构学习

张海峰-从博弈论到多智能体强化学习
现实中的 agent 通常是异构的；；

群体决策标准评测环境

张海峰-从博弈论到多智能体强化学习

相关文章：

2021-08-01
2021-07-04
2022-12-23
2021-12-10
2021-09-27
2022-12-23
2021-05-30
2021-12-18

猜你喜欢

2021-08-03
2021-07-07
2021-09-21
2021-08-20
2021-05-03
2021-07-18
2022-12-23

相关资源

下载 2021-06-05
下载 2023-01-20
下载 2022-12-14

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode