一表浅析语音交互技术流程、壁垒、突破

线性资本·2018-01-18 16:02

从互联网时代，到移动互联网时代，再到物联网时代，信息的交互方式中语音交互的重要性日渐凸显并进入主流。

编者按：本文来自线性资本，作者：欧洋，36氪经授权发布。

科技带来便捷，能坐飞机就不骑马，能站就不走，能张口就不抬手。语音交互是渗入生活了，家居、医疗、娱乐、社交各个应用场景都有它的身影，各个巨头也悉数入场。今天，小线菌用一张表告诉你语音交互背后的技术，包括交互流程的简介、各环节的瓶颈、突破口、相应例子等，拿好不谢哦😊

一、语音交互重要性

从互联网时代，到移动互联网时代，再到物联网时代，信息的交互方式中语音交互的重要性日渐凸显并进入主流。受时代发展的影响，network中网络节点数逐渐增加，从单纯的PC到移动端设备，最后到包括家电等物件，都可纳入逐渐扩大的network。伴随着交互场景的扩展，人们对交互自由度的需求也会提升。而语音交互凭借其输入速度快，场景限制少，技术链条发展成熟的优势，成为智能时代的理想交互途径。

二、语音交互流程

语音交互的流程包括语音识别，自然语言理解，对话管理，自然语言生成，和语音合成。其中对话管理（DM）包括对话状态跟踪和对话方案选择，相当于决策层，自然语言理解（NLU）和自然语言生成（NLG）构成常说的自然语言处理（NLP），相当于认知层，语音识别（ASR）和语音合成（TTS）则类似于感知层的功能。

小线菌今天就搜集了各路资料，把语音交互流程的细分流程、功能、评价指标、应用的技术、技术壁垒、技术突破口和相关了例子整理如下表👇

决策层：对话管理

智能对话平台由基于自然语言理解的问答系统和基于任务驱动的对话系统两部分组成。问答系统侧重于一问一答，即直接根据用户的问题给出精准的答案，是一个信息检索的过程。任务驱动的对话系统通常由多轮问答，倾向于一个策的过程。目前各巨头都入局了智能对话平台，例如腾讯“腾讯云小微”，百度DuerOS，和阿里AliGenie。

图片来源：阿里云智能对话平台简介

认知层：自然语言处理（NLP）

NLP包含自然语言的理解（NLU）与生成（NLG），是语音交互的核心瓶颈所在。面向开放域的人机交互一直是个前沿的研究领域，微软、谷歌等巨头在NLP领域的精准度也不过70%。

自然语言处理是在技术层面上的深度学习和知识层面上语言学应用的结合。语言学领域研究包括：词干提取(Stemming)、词形还原(Lemmatization)、分词(Word Segmentation)、词性标注(POS)、命名实体识别(NER)、词义消歧(WSD)、组块识别(Chunk Recognition)、句法分析(e.g.Dependency Parsing)、语义角色标注(SRL)、共指消解(Coreference Resolution)、篇章分析(Discourse Analysis)等。

因此自然语言处理的技术难点主要体现为:

1.语言学层面上语言的模糊性。比如多义词，当你说“苹果”的时候，可能是一种水果，也可能是一个高科技品牌。

解决这个问题需要帮助机器进行上下文理解，一些公司采用大规模的后端资源集成方式，例如思必驰集成高德地图，虾米音乐，喜马拉雅FM，微信，墨迹天气，大众点评等各方面的应用信息，以满足用户社交娱乐，导航等多种需求。

2. 语言学层面上语言的多样性。每个用户的用语习惯不一样，有人简练，有人哆嗦。再加上方言千变万化，迫使机器在大数据学习之外，进行小样本的学习和预测。

目前主流解决方法是利用日志数据，即跟踪用户用语习惯，并在其语言上抽取语义标注数据，然后用这些数据构建相关领域的语言模型。

3.技术层面上模型优化，机器思考方式和人的思考方式不一样，人可以基于小样本，并辅以推理能力进行学习，而机器则依赖大规模标注的数据，由于没有常识性知识储备，机器难以有效利用先验知识，而用深度学习模型得出的结果有时也与先验知识和专家知识相冲突。

这一问题的解决方法是在应用层面上，将深度学习和知识图谱（KG）相结合。这有两种方式，第一种是KG=模型input。即把知识图谱作为先验知识，将其中的语义信息量化为深度学习模型的输入。第二种是KG= 模型约束条件，即在传统机器学习的基础上，把知识图谱作为机器学习的一个约束条件，来优化结果。例如，智言科技利用其专利非结构化知识自动抽取技术完善问答系统的知识图谱，索答科技的智能厨房生态系统也是一个将知识图谱和语音交互系统相结合的落地案例。

感知层：语音识别 + 语音合成

语音识别和语音合成发展较早，技术已满足使用需求。第一台语音识别器发明是在1952年。1970s 研究者们开始将语音表示为隐马尔可夫过程（HMM），这是语音识别发展的第一个飞跃。2010年以来，深度神经网络(DNN)被引入语音识别技术，这是语音识别历史上第二个飞跃。DNN解决了高斯混合模型（GMM）中数据表示的低效问题，且能直接取代高斯混合模型。循环神经网络(RNN)、关注 (Attention) 模型、记忆网络(LSTM) 是近年应用较多的模型。

图片来源：机器之心《深度 | 四十年的难题与荣耀——从历史视角看语音识别发展》

通常语音识别流程包括前段信号处理，端点检测，特征提取，和解码。在前段信号处理上，语音识别在安静环境、近场识别条件下的准确率已超过实用水平。而在之后的端点检测特征提取和解码过程中，深度学习+隐马尔科夫模型（HMM）混搭的技术为现在的主流。

现在语音识别领域存在的技术壁垒主要有四点：

第一是远场及噪音干扰下识别准确率有待提升，第二个是端点检测中的降噪处理。这也被称为“鸡尾酒会问题”，寓意在嘈杂的鸡尾酒会上远距离准确识别某一个特定的声音。当前该问题解决方式是多通道信号处理，例如麦克风阵列的变换。相关落地技术包括思必驰 & 亚马逊Echo“环形6+1”麦克风阵列，以及悠响声学Mic随意安装语音拾取技术。第三个技术壁垒是在端点检测、特征提取和解码过程中模型优化。如果放下现有问题的假设与相关设计，而是交托给机器，让其从训练数据中学到的转换模型来把语音转成文字序列，可能更简单高效。当前主要用端到端CTC模型+Attention模型来优化。地平线的内部评测证明：在 1000 小时的数据上，CLDNN+CTC模型相比于之前的 DCNN 模型，性能大概提升了 15%～20%。但端到端的实用性存在争议，现阶段它只是流程中的某一个部分的步骤简化，尚未囊括解码部分，而且需要大量的训练集。第四个技术壁垒是增强预测性和可适应性，在日常人际交流中，我们会预测对方下一句会说什么。而让机器获得相似预测能力的突破口在半监督，无监督学习，尤其是强化学习和迁移学习。腾讯之前有一个PAC-RNN模型，能够非常快地自适应，从而持续改进识别结果。但是这个模型由于递归神经网络的环路比较大，训练上比较困难。

语音合成是语音识别的反向操作。包括前端处理和建模，如果采用参数化合成还需在最后加上一个声码器处理。传统的语音合成方式包括参数化合成（ParamericTTS）与拼接式合成（Concatenative TTS）。参数化合成类似于用建模公式合成语音，失真度高。拼接式合成是从一个庞大的真实生过因语料库中抽取需要的片段然后组装在一起，缺点是信息量大。2016年9月，Google的DeepMind实验室公布了WaveNet，它采用了一种绕过声码器的创新参数化合成方法，用原始音频波形深度生成模型，音频质量大大提升，但DeepMind由于计算量太大而运行缓慢。未来技术突破口在于兼顾合成质量与速度。

在硬件方面，AI语音识别领域的芯片研发也是热点。参考线性资本黄松延博士的文章《应用、算法、芯片“三位一体”浅析语音识别》智能芯片在云端大多利用 CPU、GPU、FPGA各自优势，采用异构计算方案 (CPU+GPU+FPGA/ASIC)。而在终端，语音识别两个关键因素是实时性与成本，研发语音识别专属芯片是终端语音识别硬件发展趋势，终端芯片的例子包括：启英泰伦终端智能语音识别芯片CI1006，云知声UniRobot硬件芯片系统，和MIT在ISSCC2017上发表的paper里的芯片。

三、未来趋势

关于语音交互的未来发展趋势，总体上来说，当是数据积累和技术升级相辅相成，产学研一体化。语音交互的应用将从封闭域进一步向开放域拓展，而从应用中搜集到的相关数据，也为技术的进一步发展做好数据积累。半监督学习，无监督学习，尤其是强化学习和迁移学习将成为技术发展的着眼点。

当然，创新的步伐是永无止境的。在语音交互发展日趋成熟的同时，物联网时代也产生了新兴的交互方式。在VR, AR等技术支持下，交互的输入方式，可以是手，眼睛，甚至是心灵。凯文•凯利在新经济新规则一书中提到: 企业需要在攀登一座技术高峰时保持对其他高峰的关注。例如在专注于语音交互技术攻坚时，不要忘记其他交互模式的兴起。在刚到来的CES 2018上，我们看到三个非常好的例子: ROKID 不满足于前两款智能家居音箱的成功，进军可穿戴设备的智能交互，地平线设计的智能芯片可以实现语音和图像的多模态交互，VeeR VR是领军全球VR行业的内容平台，致力于连接来自世界各地的360/VR内容创作者，对前沿技术的发现保持关注。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

一表浅析语音交互技术流程、壁垒、突破

一、语音交互重要性

二、语音交互流程

三、未来趋势

最近内容

提及的项目

风

下一篇