蓦然认知CEO戴帅湘:人机交互面临的挑战与误区

时氪分享·2017-03-29 11:13
或许我们真的会解放双手,进入一个全对话交互时代,反正我还挺期待的

全对话交互是一种怎样的体验?比如车载领域、家居智能领域,开车分心很容易出危险,在家躺着看电视懒得起来调空调风向,可能一切用手不方便的场景我们都可以用更自然的对话方式来代替。

根据36氪研究院报告显示,截至2016年10月份,自然语言处理是所有人工智能中获投金额最多的细分领域,而其中作为比语音识别后入场的语义识别颇有点后来者居上的意味。

所以语义识别中的人机交互到底是怎样完成的?不慌,让我们剥丝抽茧梳理一下,以蓦然认知为例,其主打产品智能交互引擎Mor的工作过程大概是这样的:人机对话→语义识别→内部资源整合搜索→API调用→自动对接服务完成指令。

其中大概隐藏着这么几个问题:

语义识别过程是怎么进行的?

蓦然认知CEO戴帅湘对36氪表示,Mor不是一个简单的关键词搜索引擎工具,而是基于知识图谱可以进行联想、推导,进而拥有多轮对话、上下文理解能力的语义识别系统。人类自然语言难以被机器理解,最大的障碍是其往往存在着思维跳跃性、信息省略和容易产生歧义等现象,举个例子,如下图。五道口评价最好的剁椒鱼头店是什么?第二次发问我们往往会省略主语不讲,而此时系统必须具备记忆功能。Mor具备了长期记忆和短期记忆能力,长期记忆用于理解用户习惯、偏好,描绘精确地用户画像,为决策能力提供支持;短期记忆则可多轮对话,不会给你一个“我不明白你在说什么”这种回答。

另外,Mor还具备了学习能力,划重点,此处的学习能力并不是我们日常所说的深度学习,而是迁移学习和增强学习能力。戴帅湘认为应用场景的划分对于NLP领域其实是非常不适用的,人类也不可能是换一种场合就完全换了一种讲话方式。迁移学习使Mor具备了多场景融合和复用能力;增强学习指的是在实际运用过程中,利用热数据,进行算法模型的自我优化。关于语义识别能力由来的解释我已经尽力了。

数据集的来源是什么?

我们知道,数据积累到今天已经足够之多了,这是好的一面但也带来了不小的困难。难点在于数据的清洗和挖掘问题,尤其是语音材料。Mor采用的是一种叫one-shot learning的模型,其可从少量样本中进行训练,建立模型,解决对话系统的“冷启动”问题。毕竟,“我们不可能在对话系统没有run起来之前就能获取到大量用户语料,因为对话表达方式本身过于自由,多场景之间需要融合,很难进行有效的人工标注,更不要说标注出大量语料,这时候从少量数据训练有效模型就显得非常重要。”

API融合调用是怎样进行的?

人机语音交互可能只有在单身狗的应用场景中是作为纯娱乐、陪伴式的,大多数情况下我们还是有确切需求需要机器为我们做点什么的时候才会唤醒它,当然这并不代表使用频率低。语音交互系统回归本质一定是可以完成人类指令才是有价值的。Mor可以扫描公开的API接口,进行自动服务对接,无须安装App,获取使用成本大大降低。不同场景下的服务自然融合,用户使用效率大大提升。

蓦然认知作为一家专注于NLP领域的初创企业,年初刚完成了1000万美金的A轮融资。昨日,2017春季▪人工智能产业峰会在京举办,蓦然认知CEO戴帅湘现场发表了主题演讲。

▌以下为戴帅湘发言节选:

我今天不主要介绍这个引擎是做什么的,我会整体阐述一下如果要设计和制造Mor这样一个引擎,它所面临的几大技术挑战。整体来说这个引擎它本质上是一个系统化的工程,需要面临的三大挑战。

第一,自然语言理解。顾名思义,就像机器理解人类的语言,理解语言其实本质上是理解语义。从这个角度出发,语义该如何表示?它本身是从简单到复杂,我把这个过程称之为组合性,组合性其实是模型的生成能力。通过组合性生成的东西并不是好的东西,这个时候我们需要另一个特性因果性,它保证生成的方向是我们正确的方向。 

上面两位嘉宾都提到了深度学习这个问题,语义理解是不是可以用现有的深度学习来做呢?我们可以看到图像识别或者说语音识别是一个非常适合深度学习来建模的过程,它主要是端到端,是个黑盒,从X到Y的过程。语义是一个有目的,有规划的过程,它需要每个过程的推理,以及它之间的逻辑关系非常非常清晰,这样的模型其实深度学习,至少现阶段的深度学习它不是非常合适。 

什么样的模型能够很好的描述语义这样一个过程呢?其实有一种框架比较适合做,我们现在可以说是生成模型,你要有步骤,有计划的对一个东西进行建模,它不是像深度学习这么通用的框架,可以进行套用,可以用大量的数据来拟合现在的过程。 

第二个挑战是学习与决策。要做到一个明确的决策,让机器来辅助人完成任务,它需要两个原则,记忆和学习,这跟人非常相像。记忆的角度,一种是短期记忆,一种是长期记忆,短期记忆囊括的是人和机器交互过程当中产生的是用户画像。短期记忆是下一句话联想上一句话,这个非常重要,我刚才去了什么地方?去那儿做什么?这种很有关联性的,是要靠语义识别进行的,记忆和整体决策相关。 

与记忆相对是学习过程。一是迁移学习,阐述的是说如果我对单个产品进行建模,另外一个产品是不是能够用上?如果你在单个模型做的非常透彻,但它不能移植到另外一个产品的话,它就无法有效的进行学习。然后是增强学习,增强学习本质上是有实时学习过程,就像人和人的对话,我们可以通过互相的对话博弈来快速了解这个人的性格、这个人的目的。它会实时变化参数,以便对话更加通畅。 

第三个挑战是自动服务的对接,服务对接很容易理解,所有对话系统,它都需要大量服务的支持,但是我今天强调的是自动这个含义。如果我们有非常非常多的服务需要很多的空间才能对接的话,这个工作量是很巨大的,你推出一个机器人,只能提供两三种服务,但如果能提供两三千种服务,我觉得这个意义非常大了。这个时候设立一种自动的扫描接口,并且能够自动包装接口,这样一个自动对接的模式是非常重要的。从某种意义上它仅次于自动编程的方式,是可拔插式的,不需要花很长时间去定制开发,而是快速的切入。

我们看一下它的三个误区,第一个多轮对话轮次越多越好?做多用户交互的这样一个通话,它目的是快速帮助完成任务,所以轮次这个事情如果针对不同的人,比如说我很干脆,我可能一句话把所有任务说清楚。有些人很啰嗦,或者很犹豫,他需要4、5句话来描述,这样轮次意义不是很大。你能够快速理解用户的意思,以及快速反映给用户的速度才有意义。 

也有人会认为场景越多规则也会越多,上面也提到了为什么要建模,如果你场景越多,规则越多,也就意味着你在单个场景使用非常多的规则,会导致你在多服务对接里面使用越来越多的规则。需要明确划分垂直场景?多场景磨合是本身设计这个场景里面非常重要的一个点。

我今天就基本讲完了,我总结一下我所说的对话即应用的时代,在这样一个时代我们会发现它软件之间的边界消失了,所有的服务最后通过自然对话的方式提供给用户。整体的这样一个过程它会大大的提升人在使用软件上的效率,也会大大降低整个软件开发的成本。我觉得这样一个时代,它应该是一个机器逐步模仿人,并最终会超越人类的一个时代。谢谢!

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

为创业者提供优质的产品和服务

下一篇

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业