Google 提供的不再是搜索结果了,它提供的是答案

神译局·2016-12-05 19:44
深度神经网络正在重塑了整个科技界。

如果你用手机在 Google 上搜索“世界上时速度最快的鸟是什么?”它会告诉你答案是 “游隼”。“据Youtube上的视频记载,迄今为止游隼最快的飞行速度是389km/h。”

这是正确答案,但是这个答案并不是来自Google的数据库。当你问这个问题的时候,Google搜索引擎准确地找到了YouTube上一个介绍世界上飞得最快的五种鸟的视频,再从中提取出你想要的信息,然而它并不会提及其他四种鸟。同样地,如当你问“光明节有几天?”或者“图腾有多长?”,搜索引擎知道你问的是“太阳马戏团”的表演,表演有两个半小时,包括半小时的休息时间。

谷歌回答这些问题是基于深度神经网络——人工智能的一种形式,它已经快速地重塑了整个科技界,包括其他的科技巨头,从Facebook到微软。深度神经网络是一款模式识别系统,可以通过分析大量数据学习特定的任务。在这里,深度神经网络就学会了从远端转述相关网页上的内容,并提取你想要的信息。

这些“句子压缩算法”使搜索引擎在桌面上有生命地呈现了出来。他们所处理的是对于人类来说很简单但是传统意义上对机器很难的问题。这展现了在自然语言解读,理解并回答人类语言的领域,深层学习是多么领先。关于Google的句子压缩算法,其搜索产品经理David Orr说”你必须使用神经网络,至少这是我们能够发现的唯一一种实现方式。我们必须使用所有已有的科技。”

更不要说有一群有着高学历的人们参与其中。Google所用于训练神经网络的数据都是由一大群有着博士学位的语言学家人工收集而来的。这群语言学家被称为Pygmalion。实际上,Google机器是通过一遍又一遍地学习人类如何从一大段文字中提取有用信息来实现其功能的。这样艰苦的努力学习显示出了深层学习的强大之处,也显现出其限制性。要训练一个这样的人工智能系统,你需要非常多的依靠人类智能筛选出的数据。而要获得这样的数据并不轻松或廉价。而这种需要并不会随着时间的推移而减少。

为了训练 Google 的问答大脑,Orr 和Google还使用了以前的新闻故事,这样机器就可以学习到题目是如何总结其文章的。但是现在,Google仍然需要这群语言学家的工作。他们不仅仅是示范句子压缩,实际上更多地是标记文章的各个部分以帮助神经网更好的理解人类语言。 Pygmalion团队的将近100名语言学家从全球招募而来,他们的产出被 Orr称为“金数据”,以前的新闻故事被称为“银数据”。银数据仍然有用,因为其数据量很大。但是金数据是必须的。Pygmalion的负责人Linne Ha表示该团队在未来几年还会不断扩大。

这样的人工辅助式AI被称为“监管学习”。它展现了神经网络是如何运作的。所有公司都可以做这样的东西——或者它会自发形成。全世界的网络用户已经在无数张有猫的照片中标记出了无数只猫,因此这就使神经网络学习识别猫更容易。但是在其他情况下,研究人员没有办法,只有依靠人类标记数据。

训练这样一个系统需要大量的人工筛选数据。

深层学习初创公司Skymind的创始人Chris Nicholson说从长远看来,这种人类手工标记的方式不可取。“这不是未来,”他评论道:“这是一项极其枯燥的工作。我有着博士学位,我想不出还有什么事情比这个枯燥了。”除非Google的语言学家们的工作涵盖了所有语言为止,这个系统都不算真正意义上的有用,考虑到这点,人类手工标记方式的局限性尤其明显。Orr说,该团队涵盖了20至30种语言。但是有希望的是像Google这样一个公司最终会走向更加自主的“无监管学习”AI。

“无监管学习”意味着机器可以从未标记数据中学习,这些未标记的数据包括大量从互联网和其他渠道获得的数字信息。这样的研究已经在Google、Facebook和OpenAI(Elon Musk创立的机器学习初创公司)这些公司展开了。但是,仍任重而道远,如今,AI仍然需要人类的辅助。

 翻译来自:虫洞翻翻


+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

在印建坤看来,留学后的房屋市场看重三个要素:房源+流量+系统。

2016-12-05

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业