被严重低估的苹果AirPods和语音产品如何落地?

硅谷密探·2017-03-31 13:43
如何打造中国的Echo?

编者按:本文来自微信公众号“硅谷密探”(ID:SVS-007),作者 严肃,内容来自《AI严肃说》专栏,围绕“如何打造中国的Echo”这个问题和声智科技创始人兼CEO陈孝良聊了聊。

陈孝良在中科院声学研究所获博士学位,创业前在中科院声学所担任副研究员(副教授)。

(声智科技创始人兼CEO陈孝良)

为什么语音重要?

人类用语音来交互至少十几万年,语音作为人类交流最自然的方式,比文字和图像更具天然的优势。

如果说从用鼠标操作台式机进化到更接近人性的手指操作智能手机是一个大的飞跃,那么新一代的语音交互服务将是一个更大的飞跃。

想象一下你可以通过语音来完成自己想要完成的事情,这多么符合人类懒惰的天性。也许你还不习惯对着一个硬件说话,但是新一代人会天然适应这一交互,一切都会如此的自然。

语音交互是未来实现AR的必经之路

把时间尺度再拉大一点,如果我们相信增强现实设备(AR)是未来的科技趋势,那么语音也是一种AR时代必备的交互方式。

无论增强现实设备是不是一个始终在线的设备,语音唤起和控制都会是一个比较便捷的交互方式,而语音结合手势识别等其他交互方式会让增强现实设备使用更加灵活(就像电话比电视更早发明)。

实际上微软的Hololens就已经搭载了语音识别功能,在未来语音交互很大概率会成为增强现实产品的标配。

语音产品可能带来商业模式的颠覆

说到语音产品,陈孝良认为,目前的使用场景分两种,一种是近场语音(手机语音交互,嘴巴贴近麦克风交互)这种识别率达到90%以上,而远场语音(3-5米、车载环境下、智能家居环境下)的识别其实不高,很多连50%的识别率都达不到,所以市面上的语音产品体验并不好。

亚马逊的Echo是远场语音的成功典范,Amazon Echo系列产品在2016年卖出了超过650万台,而在2015年则是170万台,而预计2017年超过1000万台。销量激增的背后是 Echo 正迅速从早期用户的小众圈子进入大众市场,Echo被寄予厚望,有望成为一代智能设备的中枢。

(Echo系列产品)

Echo的成功,最恐慌的其实是Google。因为未来如果人们日益习惯语音和语音助手这种方式,而不再是去使用传统的搜索服务,搜索引擎将会被取代。

以搜索引擎为代表的广告市场将不再是主流。以后更大的可能是会出现一种基于消费和服务的交易模型,消费者只需要在自己需要某类服务的时候才需要付费。这可能会是类似于真正的个性化推荐的服务,比搜索引擎更精准,转化率更高。

某个角度上说,掌握了Alexa这类语音助手的企业将是新时代的Google,是服务和流量的入口。类似声智科技做的这类语音前端硬件产品也会是个百亿美元的市场,而新生态下的应用层也会有新的巨头。

说到这里,历史又有些许的相似,这让探长想起了当年以广告为主要商业模式的Google推出免费的安卓手机系统,在移动市场上将以卖软件授权为主的微软直接打趴。核心原因是微软并没有找到在移动端适合自己的商业模式,这是一种商业模式对另一种商业模式的无情碾压。

如今Google却面临了同样的威胁,以卖货和交易为主的Amazon推出语音产品Echo,而实力雄厚的Google虽然也紧追不舍推出了竞品Google Home,但Google Home如何赚钱是Google未必想明白了的问题。

被忽视的AirPods和聪明的苹果

而近场语音的王者则是苹果,iPhone上的Siri虽然是个鸡肋产品,但是苹果一直在近场语音上不断布局,Siri不断在迭代,还集成到了苹果桌面端Mac操作系统上,苹果显然会不断地改进Siri直到找到合适的用户场景。

苹果在近场语音上的另外一个重要布局则是AirPods。

AirPods让我想起了科幻电影《Her》,在这部影片中,刚失恋的男主角西奥多与人工智能谈起了恋爱。男主把人工智能系统装进了一个小巧的无线耳机中,每天都戴着它上下班、搭乘地铁、逛街、去海边,这样一来便可以随时随地与她谈情说爱。

(《Her》剧照,男主带着耳机)

这个名为萨曼莎的人工智能系统善解人意,拥有迷人的声线,能帮男主解决很多生活问题,而AirPods结合Siri目前也能帮你解决一些简单的问题,而未来如果人工智能有了质的飞跃,不排除人人都会有一个自己的“萨曼莎”,从此不怕失恋。

而苹果在这里也有自己清晰的商业模式,就是卖设备。

近期市场调研公司Slice Intelligence发布的美国无线耳机市场线上销售显示,短短的一个月内,苹果AirPods就异军突起占据了美国无线耳机26%的市场份额。

不直接做新硬件

在Amazon之前,谷歌和微软早早就在研究人工智能技术,为什么在语音交互上会被半路出家的亚马逊给超越?

亚马逊则在一开始就将软件和硬件结合起来研究,Amazon Echo做了五年,研发出了自己的核心技术——用于远场识别的麦克风阵列,并且让Echo落地在了智能音箱这个已经有需求的硬件产品上。

Echo并没有直接创造一个新硬件,而是在已有的硬件品类上加上语音识别功能,并且切实的解决了远距和重噪环境下的语音识别问题。而谷歌微软此前的研究一直停留在算法、深度学习这些软件层面的交互上。语音交互的落地要解决的是真实场景下的语音识别,这要求考虑说话者与机器的距离,要让说话者在屋子任何位置下的语音命令都能被机器识别。这又牵扯到对噪声、混响、回声等干扰声音的处理,这是光靠软件所解决不了的。“远场语音交互技术的一个瓶颈是声学,而这也是我们核心的技术优势”,陈孝良表示。

(AirPods是一盘很大的棋)

在AirPods上,苹果也重复了和Amazon同样的逻辑,AirPods作为蓝牙耳机本身就是具有功能性的设备,而未来结合Siri等语音助理将使得AirPods更加强大。

当然还有一点很重要,苹果和亚马逊卖货的能力都很强,这也是Google的劣势。

要尊重硬件的周期

Amazon Echo是Amazon旗下的Lab126研发的,他们之前也推出了Kindle和Fire Phone等产品。Echo项目是2010年末启动,Amazon Echo也不是最初的名字,而是Amazon Flash,甚至2014年发货前夕还是这个名字。

(Lab126全家桶)

Amazon Echo整个研发过程用了几年时间,如今有上千人的团队在改进产品。举一个例子,Echo的响应速度刚开始是5秒,后来压到1.5秒,再后来就是1秒以内(这是平均响应时间)。

实际上智能音箱产品需要解决声学 + 唤醒 + 识别 + 控制类的语义理解 + 语音合成等难题。硬件前端涵括麦克风阵列、降噪算法、芯片、硬件平台等,而云端包括语音识别和语义理解、语音数据,同样内容上要提供音乐、天气、短信、通话等应用工具。

中文的唤醒和识别就是个很大的技术挑战,中文混杂以及地方方言更是需要持续优化,而数据积累和数据标注也需要时间和广度,还需要对特定场景(比如导航)进行优化,这些都需要较长时间的积累和研发,即使是有大量技术积累而实力雄厚的Google也至少两年时间才做出Google Home。

关注十倍以上效率提升的场景

人工智能要落地,必须要落地到实际场景和产品中。

语音产品要落地,也必须要带来较好的效率的提升和用户体验的提升。需要去寻找新的用户场景,或者是去改善已有的交互方式,或者是取代已有的交互方式。

历史经验表明,一个新的交互方式要取代另一种交互方式,必须是要有十倍以上效率的提升。这也恰好解释了为什么Siri在手机上基本是鸡肋,因为触屏的交互在大部分场景下已经能够很好的满足用户需求了。语音在智能手机上要想发挥作用,必须找到触屏交互不能很好解决的场景。

声智科技前期主要面向智能音响领域,同时逐步拓展智能安防、智能医疗、机器人等领域的客户。在声学模组基础上,声智科技还打造了智能音响的一体化语音交互方案,包含硬件与云端服务。

陈孝良表示非常看好将语音产品应用于以下领域:

智能硬件:非常看好传统硬件的品类升级,比如智能耳机和智能音箱。又比如笔记本和电视上加上语音功能,可以想象的一个场景是,通过遥控器来控制电视机来选电视栏目或者电影效率远远低于直接语音输入。

智能安防:简单的说,可以给所有的摄像头加上麦克风阵列,增加语音模块。

智能医疗:语音在这个领域有诸多应用,一个例子是电子病历,简单的说就是医生在诊断过程中语音输入便可以直接形成病历。另外一个例子是医学检测有些是通过声音检测来完成,那么直接加上语音模块既能完成交互又可以检测,可以淘汰掉屏幕等交互方式。

教育:可以将麦克风阵列应用于多媒体教室,另外一个应用领域则是远程家教。

智能玩具:具有语音交互功能的玩具更吸引孩子们的注意,但是考虑到玩具成本以及孩子的习惯,单麦识别算法是当前比较适合的方案,例如360儿童机器人,360故事机等

汽车市场:在手和眼镜都被占据(no hands no eyes)条件下,语音是个最好的交互方式,汽车上的语音产品是兵家必争之地。

语音将成为下一代智能设备重要的交互方式是一个确定的事情,随着行业的进步,更优质的语音产品将会更低成本进入生活方方面面,为我们的生活和工作带来更多便利。


+1
4

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

对于财大气粗的阿里来说,似乎并不是难题。

2017-03-31

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业