不同于听话的传统算法，这款 AI 做事情只为满足自己的好奇心 | 早期实验室

miethod·2017-05-31 17:13

AI 受好奇心而非任务指令驱动，难道离拥有人类的情感更进一步了？

编者按：传统的AI都是通过正反馈来引导，比如让AI在游戏中得到更高的分数，再比如让阿法狗赢下一盘围棋。加州大学伯克利分校的专家研究出了一种不同的算法，让好奇心来驱动AI。据称，这种算法可以加快学习速度并提高算法的效率。New Scientist日前发表了题为“Curious AI learns by exploring game worlds and making mistakes”的文章，介绍了这一算法。

按下这个按钮会发生什么？人类经常会有这样的好奇心。而现在，具有好奇心的算法正在教会自己发现和解决他们从未遇到过的问题。

面对超级玛丽的第一关，好奇心驱动的AI学会了如何探索地图、避免掉进坑里、躲避和杀死敌人。这可能听起来不是很令人印象深刻，因为在电子游戏方面，算法已经早就超过人类了。但是，这个AI的与众不同之处在于，它的技能都是自己学习的，它出于自身的好奇心来更多地了解游戏世界。

常规AI算法通过正反馈来引导。他们获得了某种外部目标的奖励，比如在视频游戏中提高一分。这鼓励他们执行提高成绩的动作（例如用马里奥踩踏敌人），并阻止他们执行不增加分数的动作（例如陷入陷阱）。

这种称为增强学习（reinforcement learning）的方法被用来创建AlphaGo。通过数千个真实和模拟的对弈，AlphaGo算法学会了追求胜利的策略。

但是，加州大学伯克利分校研究这个问题的Deepak Pathak说，现实世界并非事事都有回报。“相反，人类有一种天生的好奇心，可以帮助他们学习。”他说。这可能是为什么我们非常擅长掌握广泛的技能，而不一定要去学习它们。

所以，Pathak开始给自己的增强学习算法一个“好奇心”，看看是否足以让它学习一系列的技能。当它增加对环境的理解时，Pathak的算法就会获得奖励。所以，Pathak的算法并不是在游戏世界中寻找奖励，而是因为探索世界和掌握技能而获得奖励。

Google的AI公司DeepMind的Max Jaderberg表示，这种方法可以加快学习速度并提高算法的效率。该公司去年使用了类似的技术来教AI来探索一个虚拟的迷宫。其算法比传统的增强学习方法学得快得多。

快速学习者

被好奇心所驱动，Pathak自己的AI学会了踩踏敌人、跳过坑，学会了探索远处的房间，并在另一个与Doom类似的游戏中走迷宫。

但在超级玛丽中，好奇心能让 AI 做的也就到此为止了。平均而言，AI 仅探索了第一关的30％，因为它无法通过需要连续按15个按钮的一系列坑。AI并不想跳坑而死，而是学会了度量自己的能力，适可而止。

Pathak现在正在研究机器人手臂是否可以通过好奇心来学习拿住新物体。他说：“你可以让机器人进行意义的移动而不是随机行动。” 他还计划研究类似于Roomba真空吸尘器的家用机器人是否可以使用类似的算法。

但是，Jaderberg并不确定这种算法是否已准备好投入使用。他说，现在谈论现实应用为时过早。

编译组出品。编辑：郝鹏程

本文来自翻译, 如若转载请注明出处。

不同于听话的传统算法，这款 AI 做事情只为满足自己的好奇心 | 早期实验室

快速学习者

最近内容

下一篇