“最终之战”人类完败!DOTA2 AI 2:0吊打世界冠军,“人类再打50场才能赢”

·2019-04-16 16:43
DOTA2 AI 2:0吊打世界冠军

编者按:本文来自公众号“DeepTech深科技”(ID:deeptechchina)。36氪经授权转载。

OpenAI又回来了。就在硅谷当地时间4月13日,它完成了其成立以来的最大挑战——迎战TI8(Dota2 国际邀请赛)冠军OG战队,并以2:0的成绩最终碾压人类(还史无前例地上演了一场人机搭配的大混战)!

至此,继DeepMindAlphaGo攻陷围棋之后,Dota2被OpenAI拿下。

赛后,OG队长N0tail在接受采访时表示,“AI的表现超乎想象,它虽然在插眼等方面还有待进步,买活的时机也与人类常识相反,但它的技能释放十分精准,可能凌驾于所有人类玩家之上,而且有超强的执行力,能够保证随时将损失降到最低。或许跟它交战50场之后,我们能赢一场。”

在比赛结束后,OpenAI宣布,从4月18日到4月21日内,所有人都可以挑战OpenAIFive,即日起开放注册。无论你是2000分,还是8000分,都可以组队挑战这个打败了OG的强大AI。

此次比赛之前,OpenAI 表示,这次公开对决将会是 OpenAI Five 在 Dota 2 中的最后一次出场,因此本次比赛名为OpenAIFiveFinals,意为“最终之战”。它的对手自然不能是无名之辈。

人类代表:OG战队

代表人类出战的OG战队,是第八届Dota2国际邀请赛(TI8)的冠军。它的前身是“monkeyBusiness”战队,最早以大爹N0tail和他的挚友Fly为核心(两人一起打了超过1400场Dota),还挖掘了当时的天才少年,之后的天梯9000分第一人Miracle,发展历程可以追溯到2015年,颇具传奇色彩。

彼时,五人组刚刚更名OG,就一举拿下了法兰克福和马尼拉Major锦标赛冠军。在TI6失意之后,Miracle等三人离队,仅留下N0tail和Fly两兄弟,但重振旗鼓的OG又连续拿下波士顿和基辅Major冠军,成为首支赢得四次Major冠军的Dota2战队。

好景不长,在经历TI7和2017/2018赛季的低潮期后,OG眼看TI8直邀无望,只能参加海选。可是雪上加霜的是,在海选开始前不到一个月,s4和Fly两名选手突然转会EG战队,几乎意味着N0tail和OG的TI8之旅还没开始就结束了,逼得OG不得不紧急引入从未打过职业的新人Topson,兄弟Dota不复存在。

造化弄人,就是 OG 这样一支临时拼凑的海选队伍,最终爆发出惊人的韧性和团队默契,多次上演惊天翻盘,手刃“叛徒”Fly和s4所在的EG战队,力克“不可战胜的”PSG.LGD战队两次(TrueSight看的让人心痛),出人意料地拿下了TI8冠军之盾。

从不被看好,到一路逆袭,再到近半年又一次跌落神坛,OG 虽然被戏称为“最菜 TI 冠军”,也被诟病“含金量不足”,但它夺冠之路的传奇色彩足以比肩曾经的护国神翼Wings。尤其是在夺冠功臣Ana复出之后,其纸面实力绝对不容小觑。

此次OpenAIFive选择最终决战TI8冠军OG,足以为OpenAIDota2AI游戏项目划上一个完整的句号。

AI表现惊艳,OG溃不成军

这次比赛是三局两胜制,双方按照队长模式选人。OpenAI仍然制定了一些限制,规则与之前TI8上的基本比赛一致,但移除了巫妖,剩下了17个英雄:

图 | 比赛限制

第一局,AI 选出了直升机、,火枪、死亡先知、斯温和冰女的四核阵容,选人结束后直接给出了67.6%的胜率,信心满满。人类选出了神牛、巫医、毒龙、影魔和隐刺,相对比较脆皮的阵容。

开局抢符,AI拿下Notail巫医一血,在优势路用斯温,火枪和直升机刚三。随后双方对线互有斩获,Ceb的毒龙选择劣势路拉兵线,牛头不断游走gank,中单Topson隐刺对线死亡先知也可以五五开。

另一方面,AI三核刚三的骚套路侵略性极强,频频越塔尝试击杀ana的影魔和notail的巫医,在JerAx神牛的保护下,AI并未尝到太多甜头。

10分钟,人头数8:9,AI经济领先1千,双方对线几乎平手。不过根据之前的经验,AI的强势期即将到来。

13分钟,AI的死亡先知在追杀隐刺时,身背真假眼,却先放下了假眼,隐刺得以逃出生天,可以看出AI还是不能很好地利用真假眼。

在18分钟的遭遇战中,AI击杀了过于托大的毒龙和隐刺,马上给出了95%的胜率。

图|AI宣告:“我们估算的胜率为95%。

事实证明它们并没有夸大。1分钟后,AI在夜魇中路二塔击杀了神牛和巫医,又追上高地击杀了走位不慎的影魔,直接在20分钟破掉OG中路高地,这让解说和观众始料未及。

尽管OG在之后开始更加谨慎,不再贸然深入,但AI侵略性不减,几乎时刻都在五人抱团,满地的真眼使得隐刺几乎没有机会打探太多信息。

24分钟,AI再次在夜魇野区团灭OG,但并未选择打Roshan。

29分钟,OG进攻天辉野区,AI不以为然,死亡先知甚至做出了当面反眼这样的“挑衅/勾引”动作。随后AI凭借神级拉扯,送给了OG三人团灭,顺势攻上了OG高地,破掉了下路和上路远程兵营,扬长而去。

随后的局势几乎是一边倒,OG 不仅没有找到翻盘机会,反倒出现了几次莫名的出击和落单,脆皮阵容让 AI 逐一击破,完全无法组织有效的防守。即使神牛几次做出多人跳大,AI仍然能够凭借微操化解,将损失降到最低,甚至秒开BKB借势反打。

30分钟左右,AI成功打出超级兵,而自己的二塔都还健在。游戏在35分钟进入了垃圾时间,OG被困在自己高地上,毫无招架之力,最终在38分钟打出GG。AI拿下第一局。

第一局AI胜利,人头数52:29

第二局,AI 选出了冰女、直升机、斯温、巫医和毒龙。OG则是火枪、神牛、死亡先知、小鱼人和莱恩。AI给出了60.8%的胜率,比第一局低了7%左右,然而事实并非如此。

双方正常212分路,对线初期和第一局相似,双方有来有回。

不过 AI 对血量和技能的判断更胜一筹,经常在极限状态下击杀 OG 英雄,尤其是冰女和直升机的强势双人组,让 OG 的死亡先知十分难受,而且因为小鱼这样的英雄对线能力较弱,AI在10分钟就建立了4千经济优势,人头数11:3,OG经济被全面压制。

局势一边倒到什么程度呢?9分半,AI就直接给出了95%的胜率,比上一局快了30分钟。

虽然偶有绕树逃生等亮眼表现,但对线期崩盘,让OG完全无法招架AI中期的凶猛侵略。

14分钟,AI就直接杀上了OG的上路高地,简直就像是殴打小朋友一样。19分钟,OG三路被破,只能在自家泉水种树。

仅仅20分钟,OG倾三人之力,甚至都办法击杀一个20%血量的毒龙。伴随着AI矮人直升机的超神,夜魇基地轰然倒塌。

至此,OpenAI2:0击败OG!

在看完AI碾压OG之后,几个解说按捺不住Dota之魂,于是OpenAI尝试了一次前所未有的人机合作混战:3个AI+2个解说VS3个AI+2个解说。

这局表演赛的节奏明显放慢,面对人类玩家的加入,AI显得有些“手足无措”,很少主动配合,而几个解说也苦于没有办法指挥AI——无论是打字还是游戏自带指令,都不能控制AI的行为——只好全场各自为战,或者跟着AI抱团。

比赛进行了约60分钟,整体来看,AI和人类还无法做到积极互动,几乎看不到双方的亮眼配合。比如AI操纵的三个英雄经常抱团打野,却不会跟着人类一起推塔和gank,还会看着人类队友被集火,却袖手旁观,从旁边默默路过(也可能是在后台吐槽人类太菜)。

看来我们离AI陪玩,甚至是AI教练,还有很长的路要走。

OpenAI 结束 DOTA 2 三年之旅

OpenAIDota2AI首秀是在2017年8月的国际邀请赛(TI)现场,战胜了世界顶级中单选手Dendi。那场影魔BO3SOLO赛中,OpenAI先下一城,Dendi在第二局被拿下一血后选择主动放弃,最终0:2败于AISOLO系统。根据OpenAI的介绍,他们的AI还击败了Sumail和Arteezy等明星选手。

SOLO赛之后,OpenAI 推出了可以进行 5V5 对战的“ OpenAIFive”,并且在2018年8月初以4:1成绩战胜了Dota2解说和前职业选手组成的战队。OpenAI团队随后认为,自己的AI系统已经准备好挑战职业队伍了。

但是,在2018年8月22日~24日的TI8国际邀请赛现场,之前一路高歌猛进的 OpenAIFive 遭遇重击,在两场比赛中分别被职业队伍 paiNGaming 和中国前职业选手BurNIng,xiao8,430,SanSheng和rOtk组成的明星队伍击败,原本计划三天三场的比赛,只比了两天两场就草草收尾,提前结束了TI8征程。

根据OpenAITI8两场比赛之后发布的博客文章,导致失败的主要原因是对战的游戏玩家明显实力比AI高出不少量级,除此之外,缺乏战略规划也导致了AI的失败。纵观八月中旬和TI8的几场比赛,OpenAI的系统似乎并没有展现出太多的进步,尤其是在战略方面。虽然比赛规则有所调整,但是面对更加默契和高水平的职业队伍时,AI系统精密计算的技能释放和反应极快的微操可以惊艳观众,打赢遭遇战,却无法带来胜利。

TI8比赛之后,开发人员曾透露,OpenAIFive中使用的模型架构也并不复杂。每一个英雄由一个单独的LSTM模型控制,且为一个单层的、含有1024个单元的LSTM网络,它从BOTAPI中获取数据,然后通过多个不同的动作输出接口进行控制。

OpenAI 的 Dota 2 AI 使用了256 个 V100 GPU 和 128000 个 CPU训练模型,不使用人类数据,80%的时间自我对弈,20%的时间和过去的版本对弈,训练中每天进行的游戏数量时长相当于大约180年。

因此,不少人相信,从TI8失利至今的大半年时间里,Dota2AI系统的迭代优化又有了新的飞跃。

这次比赛,OG战队以TI8夺冠时的原班人马出战OpenAIFive,但相比在2018年夺冠时的巅峰时期,现在的OG战队实力已经有所下滑,Ana回归之前,这支队伍已经几次淹死在海选中,无缘大型比赛。

而且直到比赛前,任何人都不知道OpenAI的OpenAIFive又成长到了何种境界,加之此前AI曾经战胜准职业选手队伍,也曾被职业选手队伍所打败,时隔大半年重出江湖,也为本次比赛带来了很强的悬念。

“对我而言,最令人着迷的一点是看机器如何找到突破游戏的方式,以及它将如何对人类的游戏方式进行反应,”OG 的 Jesse“JerAx”Vainikka 在这次比赛之前说道,“这次比赛将是一次很好的学习经历,因为我们将了解机器如何优先考虑资源并利用英雄。”

游戏AI的殊途同归?

随着OpenAIFive在今天完成Dota2中的最后一战,回顾OpenAI探索和开发Dota2AI几乎长达3年的过程,是时候重新思考和审视这些AI公司在游戏类AI开发上所付出的努力和选择的目标。

比如说,我们究竟应该如何看待开发这些游戏AI的必要性?无论是DeepMind开发的Alphago还是OpenAIFive,始终有人忍不住计较,设计这些游戏AI和人类竞争根本就不公平,甚至以此来否定这种人机大战的价值。

著名的深度学习批判者、纽约大学教授GaryMarcus就曾在推特上指出这种不公平。与人类游戏玩家(或其他一些AI系统)不同,OpenAIFive实际上并不看屏幕,而是使用Dota2的“BOTAPI”来获取数据,包括从每个英雄的位置到个人法术和攻击的冷却时间等所有信息。这就为AI“快速解决了极具挑战性的场景感知问题”,从而为AI提供了巨大的优势。

AI作弊争议背后的本质问题是:人类和AI之间可能有所谓“公平”的博弈吗?恐怕我们等不到这样一场比赛了。因为,AI天生就被按照比人类有优势来打造。正如AI游戏研究员库克所说的那样:“计算机当然要在某些方面比人类优秀。这是我们发明计算机的原因。”

在游戏中击败专业人士,也不是OpenAI等公司开发游戏AI所追求的目标。他们所希望的,是AI学习如何制定数以千计的小决策来实现更大的目标。Brockman曾这样表示:“我们Dota项目的初衷不是为了在这个比赛称霸,是因为我们认为可以开发出能够在未来几十年内为世界提供动力的人工智能技术。”对于OpenAI来说,选择DOTA2作为人工智能测试的原因,“是因为我们认为它是一个能够帮助我们测试和开发通用AI技术的良好平台”。

而且,这个雄心勃勃的想法也正在走向现实。例如,用于教授OpenAIFive的“基础设施”之一——一个名为Rapid的系统就正在被用于其他项目,例如用它来使机械臂以更高水平的灵活性来操纵物体。另外,该系统可以协调数千个同时运行数百个强化学习算法的处理器,每个算法都为机器人提供动力,机器人通过游戏或模拟移动手,然后在试验结束时将其学到的内容与其他机器人同步。Rapid目前仍在持续改进中。

另一方面,AI在Dota2中有胜有败的表现,也让人们继续反思相关的技术方向,强化学习是其中讨论度最高的话题之一。

OpenAI创建人工智能时使用了强化学习算法。这种被认为可以实现让机器“从零开始学习”的技术看似简单,但是能让AI习得一些复杂的行为。它有别于传统的监督学习,不需要大量的标注数据,让AI在虚拟环境中通过自我尝试和奖励学会复杂的任务。对于游戏这种拥有天然优秀的模拟环境的场景,强化学习被认为可以帮助创造水平极高的游戏AI。

强化学习最出风头的案例,恐怕还是Deepmind开发AlphaGo的一战成名,尤其是AlphaGoZero的诞生。两者都是强化学习发展史上里程碑式的案例。AlphaGo结合了监督学习、强化学习和其他一些创新的辅助方法,而AlphaGoZero仅仅依靠强化学习和自我对弈,尽管它也使用了预先准备的算法规则用于持续的迭代,依然比前者更遵循了强化学习的整体思路。但著名AI学者、新晋图灵奖获得者YannLeCun认为,AlphaGoZero的成功很难推广到其他领域。

在OpenAIFive被职业队打败的过程中,AI充分暴露了依靠这种方法抛弃人类先验经验、获取新的技能,还有一些“盲区”。

来自斯坦福的AndreyKurenkov就撰写了大量有关强化学习局限性的文章,他表示,此前的比赛表明,强化学习可以处理“比大多数人工智能研究人员想象的复杂程度更高的问题”,但一些失败的结局表明,游戏AI需要新的方式来培养其“长期思维”。也就是说,AI在即时即地的反应上做得很好,但宏观层面决策的表现却很糟糕。他在其文章中如此总结AlphaGo和OpenAIDota2AI的成绩局限性所在:从零开始学习导致它们和人类学习相比,更依海量游戏指令和使用更原始的、无人能及的计算能力。

也正因为这些局限,目前我们也还没有看到有任何AI被广泛应用在商业级游戏中。但在接下来很长一段时间,AI打游戏恐怕还需要通过强化学习来实现,强化学习究竟是不是让机器能够像人一样从零学习新技能的最佳方法,还需要更长时间的验证。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

我省旅馆旅租场所实现人脸识别全覆盖

2019-04-16

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业