语音输入技术是一座桥梁,但并不能颠覆一切

鹏鹏姜·2017-05-25 13:26
语音输入正在慢慢替代着手动输入,世界也在慢慢改变。

编者按:语音输入无处不在,Cortana和Siri都是常用的语音助手。Srikar Kalvakolanu日前在HIGH ALPHA上发表了一篇文章名为:“Why Voice Is Just A Bridge”的文章。这篇文章表示,语音识别功能正在慢慢侵蚀着我们的生活,无处不在,而语音输入又在经历着一种质变。让我们通过文章来详细看看。

在过去三年里,语音输入作为一项可选择性的用户界面,获得了很大的吸引力。事实上,许多人将2017年称为语音之年。这使得大规模的资金涌入语言项目,以其作为一个投资平台。(例如Alexa、谷歌家居、Siri、Bixby等)然而,在所有的投资和创新中,了解语音界面的具体含义,并且了解其替代的主体是至关重要的。

语音是一种输入机制

语音最开始是一种输入机制。通过大量的机械化基础设置,你输入命令、文本、声音等,并通过一些机制翻译、使用这些信息,最终得到你想要的。在这种情况下,声音往往只是简单的输入移位机制。我们正在从单击按钮或者打字转换到使用语音,使用自然语言处理技术去创造类似的输入。

语音是一种输入功能,它取代了目前的输入模式(打字、单击按钮等)。

在一些情况下,语音输入常常比手动输入更加方便,至少它在一定程度上减少了“摩擦力”。举个例子来说,如果你有Alexa这个软件,你可以简单问它:“Alexa,今天的天气怎么样?”然而如果使用手动输入,你将不得不拿出你的手机,找到相关的天气软件,或者到谷歌上查询。虽然这看起来似乎只有很小的差异,但语音输入往往是更加便捷的。考虑到整个过程,结果常常是相似的。一种是视觉上的,一种是听觉上的,同样的信息被利用,并且同时呈现在用户面前。

语音是颠覆性的吗?

“破坏”(或“颠覆”、“革命”)这个词在我们身边被多次使用,这几乎成了一个每个人都喜欢用的热门词汇,但是很少人用它表示一些实际含义。我认为破坏行为在基础上显著的改变了系统输入机制、功能机制、或者输出机制,从而推动其他模式的出局。的确,在现在,语音正在扮演者一个这样的身份,但是它并没有像其他破坏性的科技那样无处不在,它没有明显让人感觉到改变正在发生。

我会进一步深入研究以此证明语音永远不会变成破坏性科技所有的样子。语音根本不是“输入>功能>输出”机制的优化(并不是说真的有一个“最优”状态)。总而言之,传统机制的“最优”状态不是让输入本身变得简单(在这方面,语音也往往难以或者不能做到),而是消除所需的输入量或者将输入行为一同省去。

语音依然存在在与聊天机器人,SMS助手,以及其他依然高度依靠输入的机制中,但是真正的破坏是理解上下文并且不需要任何输入行为的。这一阶段是以AI、学习机器以及辅导网络的形式出现的,在今天依然保持着新鲜度。

一个“无输入”的未来世界

现在,不需要输入的世界是独特的,因为这需要尝试完成以下任务的功能:1)寻找相关数据;2)将相关数据语境化;3)使用相关数据创建有意义的输出。这样可以使现有的模型不被消除,而是使其在不需要人为操作的前提下实现自动化。

例如,当你到达某地时,电脑可能需要提前为您订购麦当劳的早餐。因此它可能必须及时发现你即将要离开公寓,并且知道制作一个Egg McMuffin需要3.2分钟,你的通勤时间是5.1分钟,你喜欢在早上喝一杯咖啡。所以它收集所有的信息,将数据整体考虑,将其发送给麦当劳餐厅,以便他们可以准时制作出你的早餐。

现在,你也可以告诉你的手机“我要出门了”,并且输入麦当劳的地址以及你想要的早餐。但是真正的魔力是机器已经了解了所有的事情。

这显然是一种基于我们的能力去创建应用程序和UI的方法。但是这才是真正的最佳状态。想象一下,在这件情况中,语音是否发挥了作用。这可能依然是今天和全自动化之间的差距。但是在漫长的过程中,它能够平衡两者从而为未来做好准备。

对于大多数投资语音项目的公司来说,投资语音平台需要很强的洞察力。如果着眼于未来的话,这项技术还是很值得投资的。


编译组出品。编辑:郝鹏程


+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

手握流量的巨头们,既像旧日的报纸杂志,又像是旧日的电视台。

2017-05-25

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业