智能个人助手距离 her 还有多远?

杨眉·2015-09-02 13:57
Facebook 的虚拟助手 “M” 进入 beta 测试阶段了。

Image title

Facebook 的虚拟助手 “M” 进入 beta 测试阶段了。它采用人工客服和人工智能结合的模式,在文字聊天的界面中尽可能应答用户的一切需要——讲笑话,提醒起床,推荐约会地点,订餐等等。(下方是我们汉化了的界面图,更多测试界面图可以在这里看到。)

Image title

看起来,我们距离电影《Her》的世界又近了一步。然而,要彻底取代操作系统,为我们完成生活里绝大部分的任务,眼下的 M 和 Magic 还缺少什么?

1. 现在的智能助手相当于售货机里蹲个人,但未来不是要一台全自动的售货机,而是根本没有售货机。

完全基于人工智能的服务还很有限。看看“百无一用”的 Apple Siri 或者 Google Now、Microsoft Cortana 这一类产品就知道。M 的优化办法是,在人工智能的基础上,雇佣大量客服人员来做补充,这样一方面可以应对用户更多样复杂的需求,另一方面可以让训练 M 掌握服务规则。使用 M 订餐:“可不可以预约个全聚德的桌位,今天晚上四个人?” M 的逻辑会大致把任务拆解成这样

意图:预约桌位

人数:4

时间:2015年9月6日

地点:北京,全聚德

随后 M 会组织一个自己的回答(“正在预约。”)这个回答不会传给用户,而是会给 Facebook 后台的客服人员。由客服人员来决定是否改进这个回答,再把最终版本回给用户(“好的,我来帮你预约。”) M 会学习这次人工回答的示范,改进自己,以期在未来用户提出订餐要求的时候,能组织出自己的语言。而随着人工智能的不断进化,需要客服人员来处理的任务会减少,最终实现纯粹的智能助手。

也就是说,到目前为止,消费者所面对的前端本质上还是酒店电话上那个客房服务的红色按键。后端的训练才是 M 这类产品的潜力所在。参与 M 开发的 Wit.ai 创始人 Alex Lebrun 说,他们之所以要招大量的客服,就是因为之前没有这样“训练”机器学习的数据。

如果这种“训练”是可行的,那么现阶段的很多开发工作都可以随之转向。比如说,软件的教学引导和帮助功能可以省去不做,或者说不必再以人类用户可以理解的动画、文字来制作,而是直接采用人工智能可以理解的语言。让这层 “app 上的 app” 去和五花八门的软件打交道,然后像个永远能解救你的同事一样,告诉你搞定了。相比起今天,我们需要学习怎么上手一款软件,怎么适应它的更新版本,未来我们会省却很多力气。就像今天我们使用计算机,不必像过去的操作者一样学习机器语言。

另一个可能的例子是,网站这种向用户集中展示信息的界面会变得不必要。如果我们可以直接跟助手说,“来几款今年秋天流行的外套来看看,别太贵”,那为什么还需要登上电商网站,输入外套,填写预算范围呢?电商们可能不再需要设计首页和过滤器,也不再需要开发理解自然语言的客服软件了。取而代之的,是做出更适合助手调取的产品介绍形式(比如用音频介绍商品),以及能和智能助手对接的客服软件。

Image title

在电影《Her》里有个桥段:智能助手 Samantha 问主人 Theodore 要不要喝茶,然后谑笑着催促 Theodore 自己从床上爬起来去倒,因为 Samantha 没有实际的行动力。但高度成熟的智能助手应该有能力驱动泡茶机,或至少可以向智能家居的管理软件发送指令。

换句话说,现在的智能助手就像是售货机里蹲了人,未来的目标不是紧紧让售货机全自动化,而是根本不需要立一台售货机,就能让人们手里拿到一瓶饮料。

2. 智能助手不是听候差遣的二次元跑腿,而是要做无所不觉、无微不至的都教授。

相比起竞争对手 Apple 和 Google,Facebook “训练”智能助手去理解人类的自然文字有先天性的优势。前者需要耗费大量财力去录入人类语音,而 Facebook 的私信 Messenger 已经拥有海量日常对话的文字、音频记录,可以作为培训 M 的数据材料。但和从语音切入的 Siri 不同,M 选择了专攻文字,也许是为了让机器学习更切中自然文字的核心,也许也是因为 Messenger 所拥有的文字数据远远多过音频数据。

但无论是 Facebook 还是它的对手们都意识到,未来他们需要有更多接受信息的入口。“我们不需要告诉助手我们要它做什么,只要告诉它我们的焦虑是什么。”国内基于微信和人工服务的个人助手 Get 创始人任鑫认为比起被动接受买咖啡、打车这样的标准化任务,能主动理解更复杂的任务才是智能助手值得深化的方向。要让我们的想法不言自明,首先需要的,就是让智能助手可以吸取多种维度信息,察其言,也观其色。

开发者们想到了人工神经网络。这是用计算机模仿人类大脑的一个个神经元,在合适的模型里模拟出神经怎样执行其功能,从而最终理解人类是怎样思考的。目前的人工神经网络已经可以让计算机辨识图片中的人脸,听懂语音,甚至教会机器人怎样拧瓶盖。在人工神经网络的仿生能力基本成熟的基础上,智能助手搭配更多维的传感器就有望更“懂”我们。比如搭配体温传感器,可以在我们浑身哆嗦的时候,建议为我们买杯热巧克力,而不是由我们吩咐“帮我叫一份巧克力”。比如通过人脸识别,可以理解我们流下眼泪的时候,需要来陪我们聊天,而不是由我们拿起手机发送“给我讲一个笑话”。

此外,通过吸收多维度的信息,分析信息与信息之间的关联,智能助手的学习能力会成倍增长,还可以提供给我们本身想不到的任务需求。在今年的第 6 届国际环绕系统、网络及技术大会上,葡萄牙学者 Ponciano 等人(注1)举出了这样的例子:当智能助手通过一些传感器了解到用户在每天早上 8 点钟翻身起床时,就可以主动把闹钟设在早 8 点;如果还有一个光传感器,让智能助手发现醒来后用户一定会通过开灯或者拉窗帘,让周围环境变亮,那么还可以设置程序在用户醒来后发送指令让电动窗帘拉开。通过用户的起床动作、时间和周围的光线条件,这三种信息的关联配合,我们的起床过程会比原先变得省心省力。而随着我们起床去做越来越多规律性的事情,智能助手还有可能给我们晨起之后倒杯水,准备好挤上牙膏的牙刷,毛巾泡过温水……

总而言之,智能助手不应该止于听凭吩咐,而是通过接收、分析丰富的信息来判断用户的需求,主动生成任务。从一种让用户省力的工具,变成让用户省心的工具。

(注1:援引的内容来自人工智能、人机交互领域学者 Ricardo Ponciano、Sebastião Pais、João Casal 在期刊 Procedia Computer Science  2015年第52期发表的论文 “Using accuracy analysis to find the best classifier for Intelligent Personal Assistants”。)

3. 智能助手的花样还可以更繁多。

在《Her》里还有一个情节,想来令人莞尔:Theodore 第一次装机的时候,电脑问了他想听到男声还是女声,回答是女声后,又问他和母亲的关系怎么样。Theodore 犹豫地说,有时候只觉得母亲并不会认真倾听他——话没说完,就被电脑宣布进入了下一步。

这个玩笑给我们的启发是,智能助手可以按照我们习惯、喜欢的方式对待我们。从外观设计上,它可以不是一个固定的 logo 头像。比如,专注人机交互的科技公司 Artificial Solutions 就做过市场调查,约三成的用户更喜欢一个动态的头像;男用户更想要一个女性的头像;年轻用户更想要一个高颜值的头像;还有,最好是面带微笑,有一点幽默感。

学者 Konecki 等人(注2)则在另一个维度里提出创想,让智能助手不仅辨识自然语言,而且辨识语言的风格。举个例子来说,你可以跟助手说:“报下天气”或者“亲爱的,告诉我今天天气怎么样?”。在目前的技术里,助手会提炼出“天气”这个关键词,然后把天气情况反馈给用户。这和 Google 没有太明显的差异。但 Konecki 认为未来助手可以借由询问天气的句式,来选取对应的口气(正式或非正式),以及答案所采用的媒介(回答“今天很冷”或显示气温和天气图标)。

(注2:来自组织信息学学者 Mario Konecki、Matjaž Gams 和 Nikola Ivković 的论文 “MIA: A Multi-Purpose Intelligent Assistant”。)

最后,表现媒介也能更多样。Theodore 的智能助手只有声音,由他佩戴耳机来交互。但我们也可以想象,把智能助手做成一只皮卡丘的样子,跟着我们到处走(听起来挺像是日本科学家会发明的东西);或者根本不需要携带任何设备,只要在有电波的环境里,就可以找到我们的云助手。

只要想到种种这些便利而愉悦的体验,就让我对手里正敲打着的键盘有了明日黄花的感怀。也许该考虑留一副键盘了,就像是保存一架上个时代的留声机一样。

图片来自电影《Her》。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

Intellia Therapeutics是2014年成立的生物技术公司,主要致力于CRISPR/Cas9技术在治疗领域的发展。

2015-09-02

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业