从底层声学技术入手，帮厂商打造自家的Echo，声智科技想做智能语音交互领域的MTK

石亚琼36氪@123·2016-09-01 07:52

陈孝良告诉36氪，目前已经将真实场景下的语音识别率从60%提高到了80%左右（中等阈值）。

股权融资广东省2016-08

GK俱乐部是一家电竞俱乐部。

我要联系

智能语音交互的第一步是语音识别，但是一直以来，真实环境下远场语音识别的准确率都差强人意，很多AI公司都在试图通过深度学习的方法解决这个难题。声智科技认为，虽然深度学习给语音识别带来了极大的提升，但是在真实场景下，语音往往受到噪声、混响、回声等声学因素的干扰，致使输入云端模型的数据丢失大量特征，真实效果远未达到期望，因此最好从底层的声学技术切入去解决这个难题。

之所以会有这样的观点，主要还是因为声智科技的团队在中科院做了多年声学研究，很清楚物理底层信号的原理与难点，特别是人机交互所使用的语音信号。一般来说，人听到的声音包括直达声和反射声（人听自己说话的声音还包括骨导传输），当距离声源较远以后，声波的反射效果增强形成较强的混响，特别是在一些声学效果较差的环境，如果附近还有其他的噪声干扰，例如电视、风扇、汽车等等，即便我们人类也很难听清远处的人声，这就直接影响了远场语音识别的准确率（也会产生远程语音唤醒等难题）。

深度学习识别的准确性主要依赖于模型的优化和数据的规模，同时也对训练样本数据的精度和维度都有极高要求，而这主要依赖于训练数据的采集和标注，但是目前来说，这些数据的获取几乎都是依赖于人力来完成。显然，这无法满足未来人工智能爆发式增长的需求，从底层声学技术入手，很可能是一条更容易实现的道路。

（注：声智科技的智能音箱开发板）

正是看中这个机会，2016年4月，陈孝良带领团队从中科院离职，成立了声智科技，组建了二十多人的技术团队，同时获得了峰瑞资本领投的千万以上融资。经过几个月的努力，其研发的回声抵消、噪声抑制、声源定位、混响消除、声音定向等核心技术和麦克风阵列等硬件已经量产应用，这也意味着解决真实场景下远程语音识别与唤醒的思路经过了验证。

与此同时，声智科技以自己的技术和产品来采集真实场景下的远场语音数据，并以这些真实数据直接训练深度学习模型。陈孝良告诉36氪，目前已经将真实场景下的语音识别率从60%提高到了80%左右（中等阈值），随着场景数据量的增长将达到90%以上的识别率。

不过，从商业的角度看，卖声学解决方案并不是个好生意，毕竟这不是“必选项”，而是“加分项”。声智科技想到了以产品的形式提供技术支持，形成了在芯片、模组、OS、云服务等层面的语音交互解决方案。这种模式非常类似手机领域的MTK（联发科）。

从2004年起，MTK转型进军手机市场，不同于当时德州仪器、高通、英飞凌等国际芯片厂商只提供芯片平台给手机厂商，MTK提供的是高性价比的“保姆式”的整套成熟方案，大幅减少厂商的研发周期与成本。随着智能手机的普及，MTK股价一度曾超8000亿元。

如同当年MTK，声智科技产品化的第一步是先做底层器件——声学模组，这是与技术结合最紧密的。公司即将推出的声学模组，主打零门槛集成和较高性价比，端内置远场拾音、噪声抑制、声源定位、声源分离、回声抵消、音效增强等算法（2.0版本还将集成声纹识别、情绪识别等算法），预计9月正式开放预售，希望以此圈住一批客户。目前，已经与360等国内知名厂商建立了合作。未来，如果客户量足够大，或者业务有需要时，也会考虑做成芯片。

（注：图为声智科技的主要产品方向）

业务方向层面，声智科技前期主要面向智能音响领域，同时逐步拓展智能安防、智能医疗、机器人等领域的客户。在声学模组基础上，声智科技还打造了智能音响的一体化语音交互方案，包含硬件与云端服务，目标客户定位于传统音响厂商，主打零开发门槛，包括了多种麦克风阵列方案（单麦技术方案，双麦技术方案，4+1阵列方案，6+1阵列方案和8+1阵列方案），集成了自研的音箱声效、声波对码等技术，外接了第三方的语音识别、语义理解等技术，可以简单理解成一个没有壳的“Echo”，音响厂商只需要基于声智科技开源的APP开发集成，即可快速打造出个性化的智能音响。这大大降低了智能音响开发的门槛，甚至只需要7天就可完成样品模型。

之所以选择从智能音响入手，主要是因为这个大市场里还未出现大玩家。数据显示，2014 年全球电子音响行业产值约为 4844亿元，2015年京东大数据显示音箱的销售额增长了62.6%。去年春天上线的亚马逊智能音响Echo则在18个月已经售出300万台，2017年预计销量有望达到1000万台。但在国内，模仿Echo的产品、互联网品牌的智能音响销量都不太好。陈孝良认为，这主要是因为智能音箱涉及的产业链和技术其实很复杂，但却没有公司提供优质的解决方案；而声智科技在这个领域机会很大。

市面上重视智能音响市场的AI厂商还有不少，比如科大讯飞、思必驰都推出了相关的产品。不过创始人陈孝良告诉36氪，这两家公司也拥有成熟且经过市场验证的麦克风阵列技术，这是Echo音箱的核心技术，也是Echo音箱的主要成本；但是仅有麦克风阵列技术还是不够的，这只解决了智能问题，却没有解决音箱问题，必须要有声学技术方案支持；此外，目前市面上的这些麦克风阵列方案强调通用语音交互，开发门槛太高，特别是有些技术点还不能完全满足垂直领域厂商开发的需要，这也给声智科技提供了时间窗口。

本文由「石亚琼36氪@123」原创出品，转载或内容合作请点击转载说明；违规转载必究。

寻求报道

从底层声学技术入手，帮厂商打造自家的Echo，声智科技想做智能语音交互领域的MTK

最近内容

报道的项目

下一篇