「OpenAI的AI和Dota 2顶尖选手进行比赛,以2:1 取胜·谈资」8月6日
北京时间 8 月 6 日凌晨,OpenAI的AI系统又跟人类打了三场Dota 2比赛,最终2:1 战胜了人类队伍。
此次比赛旨在检验 AI 系统是否具备在 TI8(2018 年 Dota2 国际邀请赛)上与顶尖职业强队一较高低的水平。如此看来,OpenAI 又将迈向新的征程。
这次代表人类出战的是 Blitz,Cap,Fogged,Merlini 和 MoonMeander,据 OpenAI 官网介绍,他们的平均水平超过了 99.95% 的 Dota2 玩家,不过5人并没有在一起训练过,默契程度有限。
这一次,OpenAI 不仅扩大了英雄池,允许双方以随机征召模式挑选英雄(无禁用),而且将 AI 系统的反应速度从 80ms 增加到了 200ms,更接近人类的反应速度,同时还移除了此前多种对人类不利的限制:
相比之下,最大的变化就是新的规则允许选手插眼、隐身(使用隐刀或诡计之雾等)和打 Roshan。
由于 AI 系统要“操控”5 位英雄,OpenAI 为每位英雄分配了一个长短期记忆递归神经网络(LSTM RNN Network)。网络之间没有直接的沟通渠道,只有在同一局游戏中,5 个网络才会通过“团队精神”的超参数值互相协调。该参数介于 0 和 1 之间,用于协调个人和团队的利益分配比重。最终这一数值被设定为 0.97,促使每个网络将团队利益放在首位。
过强化学习训练的AI系统是在不断寻找和计算一个“最优解”,可以是局部最优,亦或是全局最优。而比赛中的细节显示,AI系统的确会放弃当下的利益,转而为局势和整体发展着想。
OpenAI的CTO Greg Brockman宣布,“我们的系统已经准备好在TI8上面对顶尖职业队伍了!”
国外解说 Purge 和 Pixel 在比赛中多次提到,人类选手可以从 AI 身上学到很多技巧,比如仇恨分担和转移。这也是 OpenAI 系统的正确使用方式,人类目前对AI 系统的套路和策略并不了解,相信在多次练习和对战中,人类对抗 AI 的能力一定会有所提高。这反过来也可以用来提升人类玩家的水平。
无数个类似的举动最终带来了胜利,也启发了人类。