作者:问耕
来源:公众号量子位
责编:linse王者峡谷,风云突变。
一场激烈的对战正在进行,左侧是五位人类职业电竞高手组成的赛区联队,另一方是……嗯?他们的对手没有出场?五个座椅空空荡荡?
不。他们的对手都在。
这是昨晚的吉隆坡,王者荣耀最高规格电竞赛事——世界冠军杯半决赛正在进行,期间有一场特殊的对决上演:五位电竞职业选手组成的赛区联队,对阵腾讯王者荣耀AI绝悟。
最终这场5v5的大战中,思路与人类迥异的AI战队耗时16分15秒,团灭电竞职业高手战队,推掉全部9塔和高地水晶。
这意味着,腾讯AI绝悟的能力,已经精进到王者荣耀电竞职业水平。
当然,对非职业玩家更是砍瓜切菜。
同日上海的ChinaJoy,绝悟向顶级业余玩家开放为期四天的1v1体验测试。首日的504场测试中,绝悟测试胜率为99.8%,仅输1场(对方为王者荣耀国服第一后羿)。首次击败电竞职业队
这场比赛,五位电竞职业高手组成赛区联队。他们选择的阵容是:曹操(ESTARPRO.XIXI)、娜可露露(EMC.SUN)、武则天(NOVA.SEEK)、狄仁杰(KZ.NIGHT)、张飞(M8HEXA.MIKE)。腾讯AI绝悟(Wukong)选择的阵容是:达摩(AI_001)、雅典娜(AI_011)、王昭君(AI_100)、虞姬(AI_000)、牛魔(AI_010)。比赛开始,人类战队的水晶在左下角。在这次历史性的对抗之后,量子位与绝悟团队进行了更进一步的交流。
腾讯绝悟:5v5对战时最高规格电竞赛事——世界冠军杯半决赛的特设环节,是中国大陆/中国香港/韩国/马来西亚地区选手组成的赛区联队。世冠杯特别环节的水平测试,是5v5版本首次达到职业水平。
1v1版本的研发难度显著低于5v5版本。ChinaJoy上测试的是1v1版本,为首次公开对外测试,面向的是顶级业余玩家,AI总体实力十分强劲。
5v5版本是此次固定的十个英雄,职业选手可以自由出装。未来希望能不断扩大英雄池规模。
设定为跟人类极限手速类似,因为游戏本身普攻和技能都有攻速限制,因此总体是一个相对公平的测试。
训练使用384块GPU,8.5w核CPU,平均每天自对战局数相当于人类训练440年的量,训练周期持续训练半个月以上。
网络解码不需要太大资源,正常服务器即可。1v1版本已经有手机版本,目前在ChinaJoy对顶尖选手开放测试。
比如在此次测试中,最后不推水晶,要奖励最大化?赛事尾声,人类赛区联队团灭后,绝悟并未直接推水晶,而是在计算整体收益后,选择先推完最后一个高地塔,再推水晶直至胜利。这是人类一般不会做的事情,但这符合 AI 的价值观设定,就是最大化经济效益。前期策略上,很早就多个 AI 抱团,甚至愿意牺牲兵线,换取血量优势;中期超强的兵线运营策略;长期策略是一直保持游戏主动权;团战的目标选择和控制衔接也很完美,体现了很强的团队协作能力。
长期致力于游戏AI和多智能体研究的团队,部分成员来自围棋AI绝艺的团队。
绝悟的研发是算法+算力高度结合,需要极致优化的算力平台和持续改进的优化算法,团队综合了AI Lab的科研与工程人才资源,还联合了我们所在的腾讯技术与工程事业部(TEG)旗下基础架构平台部人才。主要工作包括模型、特征、算力、数据的优化,机器虚拟化、搭建和优化数据处理、并行计算和机器学习训练的平台。腾讯AI Lab一直是此类智能体研究的先行者。2016年起,研发的围棋AI绝艺(Fine Art),现担任中国国家围棋队训练专用AI;2017年,启动绝悟研发;2018 年,绝悟达到业余顶尖水平,腾讯还在射击类顶级 AI 竞赛VizDoom夺冠,并在《星际争霸2》首先研发出击败内置AI的智能体。目前绝悟只是实验阶段,没有在游戏内开放。
1v1版本在特定场合会做非常短期的测试,比如8月2日起在上海举办的国际数码互动娱乐展览会ChinaJoy,1v1版本会向顶级业余玩家开放为期四天的体验测试。
绝悟背后的技术
对于这次的绝悟,腾讯AI Lab表示将通过论文等形式进一步分享技术细节,通过开放研究,帮助和启发更多研究者。
在这我们回顾一下腾讯此前发布了一篇关于王者荣耀的论文。在这篇论文中,腾讯表示绝悟是一个基于学习的分层宏观策略(Hierarchical Macro Strategy)模型。经过这个模型的熏陶,控制每个英雄的智能体就既能独立做出决策又不忘与队友沟通,成为顶尖选手。
名字里的“分层”,指的是这个模型分为注意力层(Attention Layer)和时期层(Phase layer),前者用来预测英雄该去哪儿,后者负责识别游戏进行到了什么阶段,是前期、对线还是后期。
我们先看注意力层,也就是AI怎样判断它的英雄该去哪儿。
培养这项能力,首先要有合适的训练数据,而在王者荣耀里,想判断英雄“到了这儿”,最合适的标准莫过于“在这儿打起来了”。
于是,腾讯在标注训练数据时,把下一次攻击发生的地点,定为英雄现在该去的地点。
比如说上图就以韩信为例,展示了游戏开局时英雄该往哪走。其中左侧显示的是游戏在初始阶段s-1时的状态,中间和右侧红框标出的ys、ys+1显示的是韩信进行第一、二次攻击的位置,也就是他在s-1、s两个阶段该去的位置。
AI的目标,就是学会在s-1阶段该准备去y位置,在s阶段该去ys+1位置。
用这样的数据训练注意力层,就能让AI掌握英雄移动的奥义。
知道了该去哪还不够,要想上王者,还得会判断局势,调整策略。这就是时期层的工作了。
想知道游戏进行到了前期、对线期还是后期,只靠时间当然不够。好在游戏里主要资源的状况和阶段密不可分。比如说,如果英雄还在以推外塔打暴君(小龙)为目标,那游戏一定刚刚开局;如果打到了敌方家里,那当然是后期了。
所以,教AI判断局势,根据的也是对敌方主要资源的打击状况,包括塔、暴君、主宰(大龙)和水晶(base)。
上图显示的就是时期层关注的敌方主要资源,模型要从中学会的,是根据资源状况来判断现在该打击什么主要资源了,并进一步判断要完成哪些小目标。
比如下图显示的偷蓝buff(野怪)、清下路兵线,就都是推一塔这个时期的小目标。
能分析局势、确定目标,还知道该往哪儿走,剩下的就是队友之间的沟通配合问题了。
不过要学沟通,真的没什么人类对战的数据能拿来训练。毕竟人类队友的沟通充满怨念
于是,腾讯设计了一种全新的跨智能体沟通机制,用队友的注意力标签来训练AI,让它学会预测队友要往哪走,并据此做出决策。
就这样,一支队伍中的5个智能体就可以协作了,也算是一种“沟通”机制吧。腾讯称之为模仿跨智能体沟通(Imitated Crossagents Communication)。— 完 —
扫码关注人工智能头条 围观一个假的 AI