阿里入局智能音箱:一文读懂语音入口争夺战的血雨江湖

小研聊科技·2017-07-12 20:54
解析智能音箱争夺

编者按:本文来自微信公众号“小研聊科技”(ID:xiaoyan_tech),作者 王晓妍;36氪经授权发布。

上周,就在百度轰轰烈烈地宣布全面开源Apollo自动驾驶平台和Duer OS语音交互平台的同时,阿里人工智能实验室相对低调地发布了智能音箱天猫精灵X1,语音入口的争夺战一触即发。

智能音箱的混战

2014年11月亚马逊推出基于语音交互的智能音箱Echo,内置Alexa语音引擎,去年销量超过500万台,今年更是逼近1000万台,成为了人工智能to C消费级产品的爆款,引发各路人马纷纷跟风效仿,谷歌、微软、苹果先后发布了Google Home、 Invoke、 HomePod智能音箱。

如果说智能音箱的国外市场格局是“群雄逐鹿“,那么国内的市场则是”血海江湖“。科技公司、硬件公司、内容公司和一众创业公司争先恐后地涌入,粗略统计玩家数量接近50家。京东和科大讯飞是最早进入的,2015年成立了合资公司,利用京东的渠道优势和讯飞的技术优势,推出了叮咚音箱系列产品。从去年底开始,音箱的发布进入了密集期,联想、小米都已经跟进,喜马拉雅和酷狗也依托自身的内容优势推出了小雅音箱和潘多拉音箱。上周阿里发布了自己的首个消费级AI产品“天猫精灵X1”,百度开放了DuerOS语音平台支持嵌入式硬件开发,而腾讯也表示将于8月推出智能音箱“耳朵”,至此BATJ在智能音箱领域已经聚齐。 

京东和讯飞联合推出叮咚音箱

大佬们为什么都青睐智能音箱?

人们发明计算机时,期望它是一种能够自然交互并且理解人类意图的机器,几十年来科技的发展一直在朝着这个方向努力。人类最自然的输入方式是视觉,接收的信息70%来自于眼睛。人类最自然的输出方式是语言,人们表达自己的第一方式是说出来,不是写出来,也不是画出来。 

1979年乔布斯将图形用户界面用于苹果电脑,简洁直观,易于理解,但当时语音技术尚不成熟,对话式界面无法实现,所以采用键盘和鼠标作为输入设备,完成交互。当时乔爷很骄傲地把图形界面展示给比尔盖茨,请微软帮苹果开发应用软件,没想到微软一面接了苹果订单,一面研发了自己的windows系统,成为了PC时代的霸主,最后以乔布斯状告微软侵权、微软支付了一笔赔偿款告终。

不得不说的是乔布斯在理解人性需求上确实是个天才,他敏锐地感知到键盘不是最好的输入形式,2007年基于当时逐渐成熟起来的多点触控技术,他发明了智能手机,掀起了移动互联网的浪潮。那么触屏就是最佳的输入方式了吗?显然不是,在iPhone4S上乔爷就内置了Siri语音助手,为语音交互的探索埋下了伏笔。

今天,随着数据量的爆炸、算法和计算能力的提升,人们终于看到了实现语音交互的曙光。这是计算机发明之初的愿景,现在终于有了落地的可能,于是各路玩家争相涌入争夺语音入口。只可惜乔布斯去世得早,没有看到今天这热火朝天的景象。 

目前入局的玩家主要有四大派系,智能音箱、智能家电、可穿戴设备、智能服务机器人。智能音箱的混战前文已经介绍过了,智能家电主要参与者是传统家电厂商和互联网硬件厂商,代表产品有美的智能空调、小米智能电视,它们都是用语音控制代替了遥控器,智能电视还能用语音搜索用户喜欢的节目,从此家里再也不用放那么多遥控器了。

可穿戴设备的屏幕比较小,触控方式输入不便捷,天然适配语音输入,代表产品有苹果的iwatch、出门问问的Ticwatch智能手表。

还有一大类就是服务机器人,to B的有银行、酒店、医院里的大厅机器人,to C的是以美国的Jibo为代表的家庭服务机器人,国内做的比较好的有Roobo布丁机器人,内置自主研发的语音识别芯片;Rokid智能家庭机器人,已经推出两代,可以作为智能家庭的语音入口;小鱼在家视频通话机器人,搭载了百度DuerOS对话式人工智能操作系统。

各路厂商的探索如火如荼,而消费者端却有些不温不火,在消费级硬件领域单品的销量如果没超过100万台,市场基本没有起量,这其中有诸多的影响因素。居民家庭中电器的更新换代至少需要8~10年的周期,智能家电不会马上普及。可穿戴设备2015年大热了一段时间后直接灭火,主要是没有需求痛点,采集的数据不知道怎么用,能提供的服务还比较少。至于服务机器人,用户的头脑中原本没有这一品类,需求不明确,要把这一概念植入用户心智还需要很长时间。 

这里面唯一火起来的就是智能音箱,亚马逊的echo年销量千万,目前占据70%的市场份额。美国人酷爱听音乐,音箱是刚需,这是人们心中已经接受的成熟品类,不需要再教育市场。同时这款音箱整合了足够丰富的内容和服务,包括音乐库、电商网站的购物下单、记事和提醒、Uber叫车等,同时可以控制家庭中的智能设备,包括智能窗帘、开关、插座(控制各种电器)、灯泡、安防系统和门锁,可以说给家居生活带来了非常便捷的体验,提升了用户的整体生活质量,对美国人来说花个几百美金尝鲜已经很超值了。最后还有关键的一个因素就是亚马逊为了推广Echo,动用了电商网站上最显眼也是最贵的广告位,连续数月进行展示宣传,带来了相当大的关注流量,这也是其他中小厂商绝对不具备的资源。

小音箱,大玄机,亚马逊echo的进化之路

值得一提的是,亚马逊在智能音箱上的探索并没有止步不前,它的创新与开拓精神引领着它不断推出契合用户需求的产品,Echo之后又发布了两款升级产品Tap和Dot。Echo支持语音唤醒,只能座充,售价179美金;Tap通过按键唤醒,内置电池,相当于便携版的Echo,售价130美金;Dot非常小巧,它并不是一款扬声器,而是通过接口或蓝牙连接其他音箱,使其可以使用Alexa语音引擎,售价90美金,它让用户以最低的门槛将普通音箱或家居设备智能化。

从左至右:Echo、Echo Dot、Echo Tap

在无屏音箱的探索以后,亚马逊意识到智能中枢不仅要能听见,最好还要能看见。今年4月亚马逊发布了新品Echo Look,它不仅具备了Alexa的语音功能,还增加了一个摄像头可以拍摄照片和视频,能够提供穿衣预览,还能通过机器学习算法对用户的穿衣搭配和风格给出评分和建议,售价199美金。

Echo Look

今年5月亚马逊又再次发布了新品Echo Show,增加了7英寸触屏,能显示语音播报的信息,如新闻简讯、歌词、天气预报、待办事宜以及购物清单等,还能支持视频对话,观看YouTube、安防摄像头、照片等,售价为229.99美元。

Echo Show

不过从功能设置来看,Echo的一系列产品都以Alexa语音功能为主,其他的接口方式只是配合,并没有喧宾夺主。人最自然的表达方式是语言,但接收信息方式却是视觉。亚马逊最开始推出无屏音箱,培养用户语音交互的习惯,渲染语音主入口的地位,非常有心机哦!现在Echo补充了屏幕,可以更好地展示信息,交互方式也更贴合人性,让用户体验更顺畅和舒服。比如当进行选项选择时,是由Alexa一条一条地念出来,还是直接显示在屏幕上由用户告诉Echo选第几个呢?显然后者更加方便和高效。Echo Show有便捷的音视频输入输出功能,有丰富的内容和服务的支持,几乎实现了所有智能家居入口和家用服务机器人的功能,如果今后价格再降下来一点,几乎砸死了其他玩家的市场,让人不得不感慨亚马逊低调的野心啊!

智能音箱市场占有率,Amazon Echo遥遥领先

Echo原本是亚马逊的一款尝试性创新产品,但它就这样毫无征兆地红了,同时Alexa语音引擎也迅速被开发者所熟知,CES展会上人们惊讶地发现很多智能硬件设备嵌入了Alexa语音中控,亚马逊就这样消无声息地攻占了语音入口的高地,引得其他厂商眼红耳热,这其中自然少不了蠢蠢欲动的中国玩家。对语音技术来说,不同语种间有天然的壁垒,需要有足够的语料库的积累,Alexa在英文交互中表现抢眼,但换到中文领域还需要重新适应,我想Echo之所以没进中国,除了用户、营销等因素外,这也是重要原因之一吧。国外巨头被挡在门外,这个空档刚好给了中国厂商最好的发展机会,这个已经在美国市场验证过的产品想必谁也不想错过吧~

智能音箱Copy to China为什么如此艰难?

不过在美国大红大紫的智能音箱在中国市场上却没有引起太大的波澜,Copy to China为什么就水土不服了呢?中国玩家以互联网公司为主,没有做硬件的基因,做硬件不是一件容易的事情,设计、供应链、制造、渠道都要掌握,首次试水自然有很多坑要趟。中国公司的创新性比起美国公司来还是差那么一截的,看到别人做智能音箱火了就盲目跟风的多,能够做一款原创产品解决中国老百姓实际需求的少。

1.  使用场景

Echo常用功能

这是Echo在美国家庭中使用功能的统计表。亚马逊为我们描述了一个智慧生活的图景:早晨Echo准时叫你起床,为你播放新闻早餐,或你喜欢的音频节目,告诉你今天的日程安排,晚上你回到家它会为你播放喜欢的音乐,帮你订外卖,帮你查询信息,也可以记录重要的事情和设置提醒。

亚马逊Echo的一大亮点就是可以语音控制家里的智能电器,可以语音下单购物,也可以语音叫车,但是中国家庭中本来就没有智能家电,即使有了语音中枢也没有控制的对象,各种应用服务现在也还不能接入。还有美国家庭中使用Echo的一个痛点场景是在开放厨房里,当美国人做饭时发现没有调料或食材了,此时双手又不能空出来,于是语音告诉Echo帮我在亚马逊上下单,Echo就直接帮他购买了。但是中国家庭中这样的场景却很难应用,中国菜做起来油烟比较大,一般是封闭厨房,此时即使有语音交互需求音箱也听不到,中国人也很少会把音箱放在厨房里。

2. 用户需求

智能音箱的落脚点不是智能而是音箱,用户购买也是对音箱的需求。中国人的音箱需求有三类,一是家庭影院,立体环绕声、低音炮这些都是为了提升客厅的整体娱乐体验,二是扬声器,广场舞大妈就有刚性需求,三是小型蓝牙音箱,一般是大学生和35岁以下的年轻人,宿舍和家里的空间普遍比较小,不支持高端音响设备,又特别喜欢听音乐,所以买个蓝牙音箱,价格在100~200块钱。另外的好处就是可以支持多种场景,家里、户外、车上、聚会都可以使用,其实智能音箱首先应该从这类群体切入。

国产智能音箱技术不过关,现在还基本处于“智障”状态,用户想语音设置闹钟或提醒,它却听不懂,用户交互了几次后无法完成任务也就放弃了,最终只是比普通蓝牙音箱多了个语音打开和调节音量的功能。这样一款智能音箱如果只是比普通音箱加个几十块钱溢价,倒是可以买个尝尝鲜,如果动辄小一千块钱,那用户购买的意愿和驱动力就不强了。

3.  产品设计和质量

对于硬件产品多数消费者还是care外观的,所以美观的设计是调动用户兴趣的第一要素。国外很多音箱是座充,体积也比较大,但是中国消费者还是有便携的需求,不仅仅只是在家居这个单一场景使用,出门问问下半年将发布可随身携带的Tichome Mini音箱。

在材质上大部分消费者更青睐金属材质,相对木质和塑料来说。质量过硬、做工精细是硬件产品不可忽视的部分。另外大多数消费者都表示关注音质,但是真正能够分辨音质差别的并不多,很大程度上他们关注的是使用过程中的视听体验,所以还说得过去的音响效果是必不可少的。

4. 内容和生态

音箱不是一款简单的硬件产品,背后的学问可大着呢。要提供给用户好的体验,能植入什么样的内容和服务非常关键,音乐库、音频节目(如喜马拉雅、得到)的丰富程度直接影响着用户的选择余地。然后就是能够根据用户的需求调用各种应用服务,但是目前国内各厂商还是只能集成自己生态里的服务,对于跨平台的内容集成得少,造成用户体验上的缺憾。还有就是渠道因素,叮咚、天猫精灵分别背靠京东和阿里电商的优势打开销售通路。巨头们出于战略考虑在抢占入口,基本都是赔本赚吆喝,整个行业利润空间拉得非常低,所以奉劝那些盲目跟风的小公司,还是别瞎掺和啦!巨头们布局的是生态,小公司耗不起啊!纯靠卖硬件很难有正向现金流,生存会非常难。

5. 技术难点

音箱产品看似简单,实际上还是有很多技术问题没有解决。在语音信息接收上,与手机、可穿戴设备不同的是,音箱是一个远场识别的场景,在家庭环境中要实现360°拾音和至少5~8米的交互距离,必须通过麦克风阵列来解决。还有就是语音唤醒率,主人叫它很多声都没有应答,或者主人没叫的时候它自己跳出来了,这都会让主人非常无奈有木有?当然还有更高级些的要求,比如它在播放歌曲和新闻的时候,主人突然打断,它能不能及时反应,再比如家里有好几个人同时说话的时候,或者主人在看电视的时候,它能不能在嘈杂的环境中准确地识别主人给它的指令?这些都和过硬的拾音、降噪、语音增强、声纹识别等技术是分不开的。

最难攻克的还是语义理解的部分,识别每一个字容易,听懂一段话背后的涵义却很难。我们在与他人的交流中,有时都很难去揣摩和理解他人的意图,更何况是机器呢?深度学习算法虽然大幅提高了语音识别率,但是在语义理解上还无能为力,语义理解还是要回归语言模型、传统机器学习算法和知识图谱相结合的路线中去。目前的语义理解只能在封闭场景中限定领域内去探索,但家庭环境中属于开放域,用户的需求多种多样,一个指令来了,音箱必须先判断属于哪一类问题,再考虑调用哪一类服务去满足。搜索引擎发展了这么多年,当你输入一个问题的时候,它也只能是把和问题相关的所有结果都罗列出来,能做的是相关度排序,但是做不到一对一的匹配。而音箱收到一个指令就要对应一个执行,收到一个问题就要对应一个答案,这确实是非常难的。

结语

智能音箱虽然不能马上在中国火起来,但它还是带来了很多好处。国内手机和无人机的产业能起来,源于供应链的成熟,而智能音箱属于物联网的初级产品,将音箱智能化的操作系统、语音芯片等配套基础还不完善,如今众多玩家入局,推动了整个产业的发展。与此同时也起到了教育市场的作用,培养用户使用语音交互的习惯,为未来万物互联时代的到来做好铺垫。还有很重要的一点是可以推动技术的进步,语音技术的发展有赖于语料库的完善,而国内对语音数据的积累还比较薄弱,通过这些智能终端产品收集语音信息可以促进技术的成熟。所以没事的时候多撩撩语音助手,就算为技术发展做贡献啦~ 

声明:本文中产品图片均来自互联网,版权归厂商所有。

+1
5

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业