反复试错和小数据：AI 的学习越来越像人了

boxi·2017-02-06 11:20

从假设开始，基于数据更新假设，用机器学习来改进机器学习。

编者按：大数据的积累与计算能力的提升让深度学习取得了突破，这为从图像识别、语音识别到翻译等许多应用打开了大门。但是深度学习一方面需要海量的标记数据，另一方面它的学习过程对于人类来说又基本上像个黑箱，这些问题妨碍了这项技术更广泛的应用。不过众多AI研究人员和公司已经在努力寻找办法，力图通过更少的数据以及更确定的手段让AI学习更加高效，《连线》的一篇文章对此进行了总结。

神经网络在硅谷风靡一时，用如此众多形式的人工智能灌输到了那么多的互联网服务里面去。但尽管它们在识别你照片里面的阿猫阿狗方面表现非常出色，AI研究人员知道，神经网络还是有很多瑕疵的，甚至多到有人怀疑这些模式识别系统是否发展到更先进更可靠的AI形式的可行路径。

神经网络能够通过分析大量数据来学习任务，这让它支撑了从Facebook的人脸识别到微软的翻译以及Google的互联网搜索等一切。它们还正在开始帮助聊天机器人学习对话的艺术。它们还是通往无人车和自动机器这股运动的一部分。但鉴于它们无法在缺乏如此大规模精心标记数据的情况下理解世界，所以也不能适合于所有事情。而且AI研究人员对于神经网络为什么会做出特别的决定了解有限。从很多方面来说，它们就是黑箱。这种不透明性会导致严重问题：如果无人车撞了某人而世界想知道为什么时该怎么办？

我们感兴趣的是科学方法的自动化。

Tuomas Sandholm是卡内基梅隆大学的计算机科学教授，它帮助开发了Libratus，那个在没有深度神经网络帮忙的情况下在最近击败人类顶级德扑玩家的AI。他说：“但是深度学习并不能给你提供保证。”

的确是。但因为神经网络存在的这些明显的弱点，世界上一些最大的技术公司现在正在拓展自己对AI的思考方式，从最近的一些招聘、收购以及研究来看，许多初创企业也在朝着同一个方向转变。你可以把这个看成是贝叶斯统计学信徒的崛起，也就是通过科学方法研究AI的研究人员——先从假设开始，然后基于数据更新这个假设，而不是依靠数据来推动结论，而后者正是神经网络所为。贝叶斯信徒寻找手段来应对不确定性，想办法给现有模型注入新的证据，去做一些神经网络不那么擅长的事情。

就像神经网络一样，贝叶斯方法也可以从数据中学习，但这种机器学习发生的方式不同。一家名为Gamalon的AI初创企业正在通过一种名为概率编程的技术朝这一方向推进。其创始人Ben Vigoda说：“我们感兴趣的是科学方法的自动化。”

这又一次提醒我们，从强化学习到进化计算，神经网络的快速崛起也为如此众多可以帮助机器变得更加智能的其他技术注入新生。机器学习可以有那么多种方式。

神秘技术

去年12月，当Gary Marcus把他的15人规模的初创企业卖给Uber时，他带来的是一种新型的人工智能。或者这是他的说法。

他的公司叫做Geometric Intelligence，小小的操作就能带来很大的希望。这位47岁的纽约大学心理学教授说，他和他的研究同事正在开发可仅通过少量数据学习任务的系统，这跟人类很像——有可能超过深度神经网络的能力。

Marcus相信，小数据系统对于开发可进行对话的机器或者可自行驾驶的汽车必不可少。当去年12月Uber收购了Geometric Intelligence时他说：“语言和无人车的领域的问题是你永远也不会有足够多的数据来用深度学习那种办法进行暴力破解的。”毕竟，为了避免将来出现事故你想收集数据，但你不可能为此而在繁忙的道路上弄起撞车事件出来。“这些数据你既不能买也不存在。”

Marcus和他的联合创始人，剑桥大学信息工程教授Zoubin Ghahramani仍然不会讨论他们所开发技术的特别之处。技术界这种情况很常见，AI就更加是这样了，这类秘密制造了一种神秘的气氛。但Ghahramani是那些贝叶斯信徒之一。他尤其擅长一种特别的统计模型，高斯过程（GP），这有可能在他和Marcus开发的东西里面扮演角色。

高斯过程

从某种程度上来说，高斯过程就是针对特定问题寻找最优解决方案的一种手段。其基础是另一种名为贝叶斯优化的数学技巧——贝叶斯！高斯！你得了解一下这些数学家了！GP已经在帮助网站决定应该展示哪一个广告，或者自己的主页应该是什么样子。Uber一直在招聘专长于高斯过程的学者来改进其共享乘车服务。在Google，高斯过程帮助控制着公司的高空互联网气球。

基本上，高斯过程是识别不确定性的一个很好的办法。Chris Williams是爱丁堡大学的AI研究学者，他跟人合著了高斯过程和机器学习的一本权威著作。他说：“知道你不知道是件非常好的事情。犯下一个自信的错误是你能做出的最糟糕的事情。”

而在Whetlab，这家2015年被Twitter收购的初创企业，这种技术提供了一种设计神经网络更好的办法。神经网络的设计是一项极其需要反复试错的任务。这项任务不是说要编写软件从数据之海中设法获得结果。这是一项很困难而且非常费时的工作，但GP和贝叶斯优化可以帮助把这项任务自动化。正如Whetlab创始人、哈佛大学计算机科学家Ryan Adams所说那样，该初创企业利用“机器学习来改进机器学习。”神经网络会遇到“确信错误”问题，通过识别不确定性，这类优化可以帮助解决这一问题。Adams后来离开了Twitter转投搜索巨头的中心AI团队Google Brain。

一些研究人员还认为高斯过程小数据的威力可以在推进自主AI的过程中扮演关键角色。Vishal Chatrath 曾经跟Ghahramani 共事，也是AI初创企业Prowler的CEO，他说：“要想开发出真正自主化的代理，这个代理必须能非常迅速地适应环境。这意味着能够以高数据效率的方式去学习。”此外Chatrath还说，高斯过程很容易解析。GP跟神经网络不一样，它们不会受黑箱问题之累。如果出现了事故，你可以跟踪发现原因。

“不要恐慌”

Chatrath 的Prowler已经雇了3名专长于这一技术的学者。这家公司的总部位于剑桥，那里也是Ghahramani以及其他众多GP和相关技术专家的家。Prowler正在开发可学习在大规模多人游戏级其他数字世界中导航的AI系统。这是一项复杂的工作，但他们希望这能朝着做出可学会在现实世界中导航的系统迈进一步。

与此同时，Amazon最近又雇用了一名精通贝叶斯技术的重要AI研究学者，谢菲尔德大学的计算机科学家Neil Lawrence。Lawrence最近在一篇博客中写道：“不要恐慌，通过利用数学工具来驾驭新一波的深度学习方法，我们可以确保它们基本上仍人畜无害。”

本文来自翻译, 如若转载请注明出处。

反复试错和小数据：AI 的学习越来越像人了

神秘技术

高斯过程

“不要恐慌”

最近内容

下一篇