腾讯绝悟AI完全体限时开放体验，研究登上国际顶会与顶刊

来源：腾讯技术工程微信号
作者：腾讯技术工程

感谢阅读腾讯AI Lab微信号第112篇文章。本文将介绍绝悟 AI 完全体升级版本的技术方法，也欢迎读者到王者荣耀 app 亲身体验其技术实力。
腾讯 AI Lab 宣布与王者荣耀联合研发的策略协作型 AI“绝悟”推出升级版本。
创新算法突破了可用英雄限制（英雄池数量从40增为100+），让 AI 完全掌握所有英雄的所有技能，能应对高达10的15次方的英雄组合数变化；
优化了禁选英雄（BanPick，简称BP）博弈策略，能综合自身技能与对手情况等多重因素派出最优英雄组合。
相关研究已被 AI 顶级会议 NeurIPS 2020 与顶级期刊 TNNLS 收录，展现出腾讯国际一流的 AI 研究与应用能力。

强化学习相关研究被 AI 顶级会议 NeurIPS 2020 收录

论文地址：https://arxiv.org/abs/2011.12692

绝悟「完全体」版本会在王者荣耀 app 限时开放，让公众亲身体验 AI 在复杂策略、团队协作与微观操作方面的强大能力。活动时间为 11 月 14 日至 30 日，绝悟在 20 个关卡的能力会不断提升，最强的 20 级于 11 月 28 日开放，接受 5v5 组队挑战。

AI 策略：红方 AI 铠大局观出色，绕后蹲草丛扭转战局

AI微操：蓝方 AI 小规模交锋精细操作化解攻势

AI协作：蓝方AI团战完美配合以少胜多

Ai微操：AI公孙离完美连招一秀三反杀

40个到100+，英雄池完全解禁

少林有七十二艺，功夫既有不同，练习之法，亦必各异。学者苟能尽之，则无敌于世矣。
在王者荣耀中，若每个职业都有4个紫色熟练度英雄，你就能解锁“全能高手”称号。但因为练习时间与精力限制，很少有人能精通所有英雄。
但绝悟 AI 做到了。技术团队一年内让它掌握的英雄数从1个增加到100+个，完全解禁英雄池，此版本因此得名“绝悟完全体”。

绝悟AI能力演进路线，从MOBA 新手玩家到职业水平

绝悟 AI 的不同英雄会共享一个模型参数，从零学会单个阵容易如反掌，但面对多英雄组合时就难如登天。在对战中，因为地图庞大且信息不完备，不同的10个英雄组合应该有不同的策略规划、技能应用、路径探索及团队协作方式，这将使决策难度几何级增加并且，多英雄组合也带来了“灾难性遗忘”问题，模型容易边学边忘，这成了长期困扰开发者的大难题。
为了应对多英雄组合问题，技术团队先采用引入“老师分身”模型，每个AI老师在单个阵容上训练至精通，再引入一个 AI 学生模仿学习所有的AI老师，最终让“绝悟”掌握了所有英雄的所有技能，成为一代宗师。
团队的长期目标，就是要让“绝悟”手握强兵，学会所有英雄的技能，且每个英雄都能达到顶尖水平，因此在技术上做了三项重点突破：
团队首先构建了一个最佳神经网络模型，让模型适配MOBA类任务、表达能力强、还能对英雄操作精细建模。模型综合了大量AI方法的优势，具体而言，在时序信息上引入长短时记忆网络（LSTM）优化部分可观测问题，在图像信息上选择卷积神经网络（CNN）编码空间特征，用注意力（Attention）方法强化目标选择，用动作过滤（Action Mask）方法提升探索效率，用分层动作设计加快训练速度，用多头值估计（Multi-Head Value）方法降低估计方差等。

网络架构

其次，团队研究出了拓宽英雄池，让“绝悟“掌握所有英雄技能的训练方法——CSPL（Curriculum Self-Play Learning，课程自对弈学习）。这是一种让 AI 从易到难的渐进式学习方法：
第一步是挑选多组覆盖全部英雄池的阵容，在小模型下用强化学习训练，得到多组“教师分身”模型。
第二步是蒸馏，把第一步得到的多个模型的能力迁移到同一个大模型中。
第三步是随机阵容的强化训练，在蒸馏后的大模型里，随机挑选阵容继续强化训练和微调。通过多种传统和新颖技术方法的结合，实现了在大的英雄池训练，同时还能不断扩展的目标。

CSPL流程图。设计思想：任务由易到难，模型从简单到复杂，知识逐层深入。

使用CSPL方法扩展英雄池有明显优势

第三，团队还搭建了大规模训练平台——腾讯开悟（aiarena.tencent.com），依托项目积累的算法经验、脱敏数据及腾讯云的算力资源，为训练所需的大规模运算保驾护航。开悟平台于今年 8 月对 18 所高校开放，未来希望为更多科研人员提供技术与资源支持，深化课题研究。

排兵布阵靠“AI教练”智用田忌赛马术

一场比赛中，胜负的关键不仅在于拥有“绝悟”这样的顶尖选手，排兵布阵的教练也非常重要。从古时的田忌赛马，到足球场上的攻防策略，莫不是一个博弈的过程。团队的第二个目标，就是为“绝悟”找到一个能排兵布阵的AI教练，也就是在游戏BP环节（禁选英雄）的最优策略。

绝悟 vs 人类BP测试

简单的做法是选择贪心策略，即选择当前胜率最高的英雄。但王者荣耀有上百个英雄，任意英雄间都有或促进或克制的关系，只按胜率选择很容易被对手针对，更需要综合考虑敌我双方、已选和未选英雄的相关信息，最大化己方优势，最小化敌方优势。

受到围棋 AI 算法的启发，团队使用蒙特卡洛树搜索（MCTS）和神经网络结合的自动 BP 模型。MCTS 方法包括了选择、扩张、模拟和反向传播四个步骤，会不断迭代搜索，估算出可选英雄的长期价值。因为其中模拟部分最耗时，团队用估值神经网络替代该环节，加快了搜索速度，就能又快又准地选出具备最大长期价值的英雄。要提到的是，围棋等棋牌类游戏结束就能确定胜负，但 BP 结束只到确定阵容，还未对战，所以胜负未分。因此团队利用绝悟自对弈产生的超过3000万条对局数据训练出一个阵容胜率预测器，用来预测阵容的胜率。进一步的，胜率预测器得到的阵容胜率被用来监督训练估值网络。

除了常见的单轮 BP ，AI 教练还学会了王者荣耀 KPL 赛场上常见的多轮 BP 赛制，该模式下不能选重复英雄，对选人策略要求更高。团队因此引入多轮长周期判定机制，在BO3/BO5赛制中可以全局统筹、综合判断，做出最优 BP 选择。训练后的 BP 模型在对阵基于贪心策略的基准方法时，能达到近70%胜率，对阵按位置随机阵容的胜率更接近90%。

至此，绝悟前有多个强兵，后有军师辅佐，不折不扣的一代宗师终于练成了。

研发拓展，从监督学习到强化学习，再回到监督学习

团队同时研发了监督学习（SL）方法，针对大局观和微操策略同时建模，让绝悟同时拥有优秀的长期规划和即时操作，达到了非职业玩家的顶尖水平。相关技术成果曾在2018年12月公开亮相对战人类玩家。其实，团队对于监督学习的研发一直在持续进行中。今年11月14日起开放的绝悟第1到19级，就有多个关卡由监督学习训练而成。

监督学习方法论文地址：https://arxiv.org/abs/2011.12582

虽然在理论上，监督学习训练出的 AI 表现会逊于强化学习的结果，但此类研究极具研究与应用价值，相关技术成果还入选了顶级期刊 TNNLS 。

研究方法论上看，监督学习对于AI智能体的研发有很高的价值。首先，通过挖掘人类数据预测未来的监督学习是通常是研发游戏 AI 的第一步，并在众多视频游戏上取得良好效果。比如在明星大乱斗等复杂电子游戏中，纯监督学习能也学到达到人类高手玩家水平的AI智能体。第二，它能复用为强化学习的策略网络，如 AlphaGo 就是监督学习结合强化学习。第三，它还能缩短强化学习探索时间，比如 DeepMind的星际争霸AI AlphaStar 就用监督学习做强化训练的隐含状态。

应用上它更是具有诸多优点，比如训练快，在16张 GPU 卡上只需几天，而强化学习则需几个月。其次，拓展能力强，能完成全英雄池训练。最后，其使用真实玩家的脱敏数据，配合有效采样，产出的 AI 行为上会更接近人类。

网络架构

技术应用

绝悟一方面将发力电子竞技领域。作为数字时代最受年轻人欢迎的运动，电竞已于2018年成为亚运会表演项目，中国队参赛获两金一银的佳绩。与传统体育项目一样，电竞职业选手也需要手眼脑协调、策略和操作快速反应、团队协作精神及大量刻苦训练。借助在算法和数据方面的优势，绝悟可为职业选手提供数据、战略与协作类实时分析与建议，及不同强度与级别的专业陪练。以前沿科技推动电竞专业化发展，AI 将继续推动中国电竞在全球范围内保持领先。另一方面，绝悟能够参与游戏设计，比如英雄角色的平衡性测试与参数调整，提高测试效率，优化角色平衡性，还可参与MOBA新地图研发等。

生态建设

腾讯 AI Lab 还与王者荣耀联合推出了AI+游戏开放平台「开悟」，打造产学研生态。王者荣耀开放脱敏数据、游戏核心集群（Game Core）和工具，腾讯AI Lab开放强化学习、模仿学习的计算平台和算力，邀请高校与研究机构共同推进AI前沿研究，让开悟成为展示多智能体领先研究的舞台。开悟将在2020年12月举办第一届水平测试。

长远目标

腾讯 AI Lab 不仅研究王者荣耀为代表的MOBA类游戏，还同步推进了多类AI+游戏研究。在棋牌类，研发了三年内夺得四次世界冠军、担任中国国家围棋队陪练的AI「绝艺」；在RTS类游戏代表星际争霸2里，在一个不完全信息博弈场景，需在复杂连续的决策空间下进行面向长期决策的决策的游戏中，研发出首个能在「星际争霸 II」全场游戏中打败「开挂」内置 AI 的智能体；在FPS射击类游戏中，我们着力解决3D环境建模、感知实现视角的转换和移动寻人等难题，先是夺得了VizDoom AI竞赛历史上首个中国区冠军，然后FPS AI上线手游《穿越火线-枪战王者（CFM）》广获好评。

长远来看，AI+游戏研究将是腾讯攻克 AI 终极研究难题——通用人工智能（AGI）的关键一步。AGI 代表研发能在通用系统中执行多种复杂命令，达到或超越人类水平的 AI ，从绝艺到绝悟，不断让 AI 从0到1去学习进化，并发展出一套合理的行为模式，这中间的经验、方法与结论，长期来看，有望在大范围内，如医疗、制造、无人驾驶、农业到智慧城市管理等领域带来更深远影响。

推荐阅读：

更多腾讯AI相关技术干货，请关注专栏腾讯技术工程

推荐阅读

目录