博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
DeepMind AlphaStar:Demo很强大,但比赛输了
阅读量:6481 次
发布时间:2019-06-23

本文共 5823 字,大约阅读时间需要 19 分钟。

  hot3.png

两年前,DeepMind 曾宣布开始研究打即时战略游戏《星际争霸 2》的人工智能,今天,AlphaStar 终于首次亮相在世人眼前。在对阵人类职业玩家、前 WCS 亚军 MaNa 的一场比赛中,人工智能却被人类「狡诈」的战术迷惑,输给了对手。

在几场展示 AI 实力的 Replay 铺垫之后,AlphaStar 现场比赛却输了。面对刚刚从电脑前起身的 MaNa,DeepMind 的两位科学家 David Sliver 与 Oriol Vinyals 只能露出尴尬的微笑。

看来,人工智能在征服这个「最复杂游戏」的过程中还需要学会应对很多战术和突发情形。在全球首场星际争霸 2 的「人机大战」中,AI 和人类玩家都使用了神族。

人工智能表示:Pimba,所以我用神族(其实当然不是了,是因为神族的兵种最容易计算)。

挑战游戏 AI 的最高峰

2018 年,机器之心记录了 OpenAI 人工智能挑战 Dota 2 的全进程:从最初的 ,到 中击败业余人类玩家,最后在 败北。

虽然,OpenAI 的人工智能在 TI 8 现场的表现不尽人意,但我们可以看到社区在 AI+游戏领域不断取得进步。

除了 Dota2、王者荣耀这样的 Moba 类游戏,星际争霸因其丰富的多层次游戏机制,对于人工智能研究来说也是一个再理想不过的环境。过去一年,机器之心报道了众多机构在星际争霸、星际争霸 2 上的 AI 研究成果。而我们所熟知的 DeepMind,在围棋项目结束之后也成为了 AI+星际争霸研究的主力之一。

两日前,会以线上直播的形式公布 AI+星际争霸 2 方面的最新进展,吸引了 AI 社区、游戏社区的极大关注。

孙一峰永远是我大哥。

小编作为 Dota2 鱼塘级玩家,今日为大家带来最新的报道:DeepMind 的 AlphaStar 很强,它在一个月前接连以 5:0 的比分战胜了 Liquid 战队的两名职业选手,但现场比赛却输了。

与 DeepMind 的其他人工智能一样,打星际争霸 2 的人工智能也需要一个自己的名字。在人机大战开场数小时前,DeepMind 创始人 Demis Hassabis‏就通过 Twitter 向我们揭晓了谜底,继 AlphaGo、AlphaGo Zero、AlphaFold 之后,新的智能体名为 AlphaStar。

在 AI 圈、游戏界关注之下,DeepMind 的星际争霸 2AI 首秀开始。此次 Demo 的主持人为美国电子竞技解说 Artosis。国内有旭东老仙,美国也有 Artosis。Artosis 的诅咒就被喻为欧美星际争霸圈内的最强毒奶。RotterdaM 是星际争霸 2 官方解说,前魔兽 3、星际 2 职业选手。

在开场前,DeepMind 联合研究负责人 Oriol Vinyals 对比了 Atari 游戏、围棋与星际争霸 2 三者之间的复杂度。

星际争霸 2 是人类游戏史上最困难、最成功的即时战略游戏,这一系列游戏的历史已经超过 20 年。星际争霸长盛不衰的部分原因在于其丰富的多层次游戏机制,对于人工智能研究来说,这是一个非常接近现实世界的虚拟环境。

星际争霸拥有平衡的游戏规则,以及诸多信息和需要控制的变量。例如,虽然游戏的目标是击败对手,但玩家也必须顾及并平衡子目标的数量,比如收集资源(水晶和气矿)或建造房屋(提高人口限制)。此外,一场比赛的时间通常为几分钟到一小时不等,这意味着游戏中提早执行的操作也许会很长时间不见成效。最后,由于战争迷雾的存在,地图对于玩家只有部分显示,这意味着智能体必须结合记忆与规划才能成功。

星际争霸还有其他吸引研究者的方面,比如每天在线竞争的大量狂热玩家。这保证了有大量的游戏记录数据可以学习,以及大量可与智能体竞争的优秀人类对手。

甚至星际争霸的操作空间也是一个挑战,可从超过 300 种操作中做选择,相比之下 Atari 游戏只有 10 种操作选择(例如,上下左右等)。在此之上,星际争霸中的操作是层级的,能够进行调整、增强,有很多游戏单位需要点击屏幕控制。即使一个 84x84 分辨率的小屏幕,大概也存在 1 亿种可能的操作。

5:0 击败 LiquidTLO?演呢?

AlphaStar 对决的第一个人类对手,是液体战队的星际争霸 2 职业玩家 LiquidTLO。他是一名来自德国的虫族玩家,活跃于 2013-2015 年,本名 Dario Wünsch。TLO 职业生涯最好的成绩是 2013 年 6 月,在 HomeStory Cup VII 获得第三名,目前 TLO 的全球排名为 68 位。

TLO 对于能够被邀请来到 DeepMind 成为首个接受 AI 挑战的职业选手感到有些惊喜:「当时 DeepMind 发了封电子邮件来邀请我,后来我发现自己就来伦敦了。」虽然在主玩虫族之前,TLO 还打过一阵 Random,但他已经 28 岁了,神族游戏水平存疑。他在前去 DeepMind 对战之前练习了百场比赛。

比赛期间,小编也逛了 scboy 的直播。黄旭东表示,LiquidTLO 都已经 28 了,找他来打,开玩笑吗?虽然 AI 限制了 APM,但是因为 AI 应该完全没有无效操作,180 的 APM 还是很高的。而相对于人类选手,有效操作 180 已经是顶级水平了。

Alphastar 对战 LiquidTLO 演示

开场之后,第一盘人类选手使徒双开对 AI 单矿 VR。第一波使徒骚扰 AlphaStar 防守中规中矩,可以说不亏不赚。之后反穿了两个使徒打到了 6 个农民拖后了开矿节奏。而后 AlphaStar 开门带运输机前压,点掉电池之后通过运输机操作秀了人类选手一脸,AI 不朽还在路上 TLO 就打出 GG。

此时的 AlphaStar 看起来表现不强,菜鸡互啄。开局没有去对手家里探路,也没有做纪律性的查看对手有没有野建筑之类的操作,让人难以明白 AI 是怎么判断对手的战术的。

第一场结束后放出的数据,TLO 559 的 APM。网友评论:脸滚键盘吗?

在展示的第三场比赛视频中,双方打出一个双矿对开的局面。AI 前期补了两矿农民才放下基地,但是人口还是领先,给到了人类选手一定的压力。尤其是在操作上,AI 操作猛如虎。但是从比赛看来它还是有非常大的局限性,对于一些情况完全不知道如何处理,而且并没有多线操作,而是所有兵力集中推进。大概唯一的多线就是在 AI 家里的运营一直非常稳健。视频中虽然 TLO 利用一些小多线和凤凰、立场打回了一些。尤其是在中期有一波 AI 领先 60 人口但是没有打过,人口差一度被打回 20 以内。但是由于 AI 平稳的运营,还是把优势掌握在手里,直到最后人类选手打出 GG。

最后,AlphaStar 以 5:0 的绝对优势击败了 TLO。旭东老仙与众多网友都表示 TLO 未能发挥出职业玩家该有的水平,请的演员吗?(不是小编说的)。

但是看了下面 AlphaStar 对战波兰选手 MaNa 的视频之后,之前看了 TLO 比赛喊着「收了钱、放水、假赛」的二五仔们又精神了。

5:0 击败 MANA,服了

在 LiquidTLO 之后,DeepMind 的 AlphaStar 对决的人类选手是同样来自液体战队的 MaNa。MaNa 本名 Grzegorz Komincz,来自波兰,曾在 2015 年的 WCS 闯进决赛,这是一个正经的神族选手。

MaNa「忠肝义胆」,可不会跟你演戏。

对战 MaNa 时,AlphaStar 视角的神经网络处理可视化。神经网络观察图像,输入内容会激活网络的不同节点,进而开始「考虑」应对的动作,例如点击和建造,并预测各种结果。AlphaStar 也会预测对手的发展情况,尽管有时因为战争迷雾的存在无法完全做到。

在第一场比赛中,AI 的第一个水晶很难受,影响了采气,但是 AlphaStar 主动放了一个战术:在 MaNa 基地附近放下了两个 BG,但是很快就被 MaNa 看到。之后,MaNa 放下电池后放心的派出先知去 AlphaStar 家里屠农,但是 AI 在顶着 MaNa 两个追猎的火力点掉了高地下方的石头之后,坚决的打出一波。虽然 MaNa 的不朽已经走出 VR,但是第一时间被点掉。拖农民对于 AI 的操作根本没有影响,先知回防也被立刻点掉,MaNa 打出 GG。

看了对战 MaNa 的视频,旭东老仙说,AlphaStar 凤凰的这个操作有些夸张,是人类玩家无法实现的。对战 MaNa 和 TLO 中间间隔了一周,看来已经学会堵口的建筑学了。

此外,AI 对于农民采矿的细节应该是也在不断调整。我们可以从视频中看出,同样的农民数量,采矿效率总是比人类选手高。

看到这里,我们可以发现 AlphaStar 此时的操作和运营真的无懈可击,它对攻击对象的选择也是很精确,没有浪费火力,也就是说战斗中几乎是 0 失误。

这样的电脑看来只能拼一枪战术了,操作肯定是拼不过了,看看能不能在兵者诡道方面占一些便宜。

第四场视频看到的就是 AI 用无解的操作非常赖皮的以劣势兵种强吃人类玩家兵力。虽然 AI 主力只有追猎者,但是被 MaNa 分割之后打出了三线拉扯,打出了罕见的追猎包不朽,一波瞬间 1600 的 APM 之后操作完胜,MaNa 主力死光无奈 GG。

最后,MaNa 0:5 同样败北。

现场对决 MaNa:出人意料的反转

在一段记录视频中,DeepMind 回顾了 AlphaStar 的超快进化历程:2018 年 12 月 10 日,AlphaStar 击败了 DeepMind 公司里的最强玩家 Dani Yogatama;到了 12 月 12 日,AlphaStar 已经可以 5:0 击败职业玩家 TLO 了(虽然 TLO 是虫族玩家,但解说们认为他在游戏中的表现大概能有 5000 分水平);又过了一个星期,12 月 19 日,AlphaStar 同样以 5:0 的比分击败了职业玩家 MaNa。

为了让人感受充分训练后 AlphaStar 的强大,DeepMind 组织了一场现场对决。MaNa 在比赛前称,自己要来一场「复仇之战」。

出人意料的是,这一场比赛人类选手竟然获胜了。

这是 AlphaStar 首次星际争霸 2 的人机大战直播。通过这场比赛我们可以看到 AI 的一个缺陷:除了特定的分兵战术,并没有灵活的兵力分配概念。这让我们想起打星际 1 电脑的远古时代,开局派出一个农民去攻击电脑的基地,电脑就会派出所有农民去一直追杀你这个农民。这场 MaNa 也是利用的相似的办法,棱镜带着两不朽在 AI 的基地不停骚扰,AlphaStar 一旦回防立刻飞走,等 AI 兵力出门又立刻继续骚扰。

AlphaStar 是如何学会打星际争霸 2 的

TLO 和 MaNa 等专业星际争霸玩家在整场比赛中平均每分钟可发出数百个动作(APM)。这一数据远小于星际争霸的机器人(它们可以单独控制所有单位,达到数万 APM)。在对阵 TLO 和 MaNa 的比赛中,AlphaStar 的平均 APM 是 280,稍低于职业玩家,不过 AI 的操作都是有效操作。DeepMind 称,AlphaStar 的 APM 较低是因为 AI 使用人类玩家对战的 Replay 进行训练,从而模仿了人类的游戏方式。此外,AI 在观察图像和进行操作之间的延迟平均为 350 毫秒。

在比赛结束后不久,DeepMind 官方博客随即放出了整个 Demonstration 的视频与 AlphaStar 的技术解读。

据介绍,AlphaStar 的行为是由一种深度神经网络生成的,该网络从原数据界面(单位列表与它们的特性)接收输入数据,输出构成游戏内行为的指令序列。具体来说,该神经网络在单元中使用了一个 transformer 作为躯干,结合了一个深度 核、一个带有 pointer 网络的自动回归策略 head 以及一个中心价值基线。

AlphaStar 也使用到了全新的多智能体学习算法。神经网络最初通过暴雪公开的匿名人类游戏视频以进行训练。这让 AlphaStar 能够通过模仿进行学习天梯玩家的基础微操与宏观操作策略。

AlphaStar 联盟。最初是通过人类玩家的游戏回放视频进行训练,然后与其他对手对抗训练。每次迭代就匹配新的对手,冻结原来的对手,匹配对手的概率和超参数决定了每个智能体采用的的学习目标函数,保留多样性的同时增加难度。智能体的参数通过强化学习进行更新。最终的智能体采样自联盟的纳什分布(没有更换)。

比赛匹配分级评估:对不通训练时间的 AlphaStar 联盟水平的大约估计

随着自我博弈的进行,AlphaStar 逐渐开发出了越来越成熟的战术。DeepMind 表示,这一过程和人类玩家发现战术的过程类似:新的战术不断击败旧的战术。

为了训练 AlphaStar,DeepMind 使用了谷歌最先进的深度学习芯片 TPU v3 构建了一个高度可扩展的分布式训练配置,支持数千个对战训练并行运算。AlphaStar League 运行了 14 天,每个人工智能体使用 16 块 TPU。在训练时间上,每个智能体相当于训练了人类的 200 年游戏时间。最后成型的 AlphaStar 采用了各个智能体中获胜概率最高战术的组合,并可以在单个 GPU 的计算机上运行。

DeepMind 表示,对于这项工作的全面描述已经写成论文,目前正在接受同行评议期刊的审阅。又会是一篇 Nature 吗?

结语

看了前面回放的比赛视频,我们经历了从「很失望」、「AlphaStar 不行」,到「AI 的操作有点意思」,最后到「人类要完」、「打不过了」。但最终的现场决赛,人类玩家还是扳回一成。

此外,DeepMind 的 AlphaStar 也许并非最强的智能体。芬兰电竞战队 ENCE 也在两天发布通告:Artificial Overmind 挑战赛的获胜 AI 将可以挑战世界冠军 Serral,也许这会是一场值得期待的人机对决。

20 天后,人类和 AI 将会有怎样的对决?

参考链接:

转载自:

你可能感兴趣的文章
Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN
查看>>
[?]Unity快捷键
查看>>
matlab求解相关系数
查看>>
【转】关于语言的思考
查看>>
《二叉树》学习心得
查看>>
JAVA课程设计猜数游戏 个人
查看>>
POJ 2318 TOYS(叉积+二分)
查看>>
李宏毅机器学习笔记1:Regression、Error
查看>>
鼠标双击事件不可描述的问题
查看>>
Token生成(转载)
查看>>
linux 进程间通信机制(IPC机制)- 管道
查看>>
xmpp相关链接,
查看>>
python2/3 发送https请求时,告警关闭方法
查看>>
团购ARM11 OK6410 以及tiny6410 开发板 活动开始了!请需要ARM11 OK6410 以及tiny6410 开发板的同志们赶紧加入一起进行吧!...
查看>>
jquery图片轮播-插件
查看>>
[Bundling and Minification ] 四、总结
查看>>
POJ3481 Double Queue
查看>>
同一jsp页面内的 js代码 与 js文件 中的变量共享
查看>>
VS 插件
查看>>
Windows/linux双系统的时间修改问题
查看>>