全球首款多模态AI英语助教

创新观察·2019-09-18 16:41

助力教育产业良性发展，缓解教育焦虑、促进教育公平、推动产业可持续性发展。

英国知名AI公司Emotech 联合华为，在HUAWEI CONNECT 2019全球大会上首发世界第一款多模态AI英语口语教评解决方案，引入多模态AI2.0及深度学习的算法，开创更逼近真人口语教学及真人测评的同时，突破教学标准化壁垒，降低重复性教学成本，大幅提升口语测评精准度，从而助力教育产业良性发展，缓解教育焦虑、促进教育公平、推动产业可持续性发展。

多模识别：精准挖掘问题本质

通过视频与音频抓取，精确识别不标准发音并锁定原因，利用深度学习把握发音问题，并实时记录分析学习进展。

多模反馈：标准化与低成本双赢

降低教学成本，辅助教学，AI助教提供标准英音美音发音示范，计算机视觉时时追踪重点强化口型变化，加速口音改进。

多模评测：颠覆测评精准度上限

抗噪能力强，不易受环境干扰，在给定噪音环境下，与单模态产品相比，准确率提高30%以上。

多模纠错：强化学习记忆

个性化一对一纠正发音，沉浸式学习强化记忆，视觉、口型结合用户语音回放，比对正确示范发音及口型，提供更易被人脑记忆的学习过程，比单一模态有效性提高60%以上。

强抗干扰能力，多场景适用

传统单一音频渠道的输入，对声学噪声敏感。多模态视音频混合方案针对这一问题，有效提升抗干扰能力，能够有效提高发音评测系统（PA）、语音识别（ ASR）准确率，将机器评测与识别能力应用于更多复杂场景。

视音频混合反馈，逼近真人教学

现有技术纯语音和文字的反馈，理解偏差、效率不高。多模技术提供音视频混合的错误点回放和正确发音示例，如真人老师一对一教学，提升学习效率。

Emotech全球首款多模态AI英语口语测评技术为口语教学及测评提供了颠覆性的赋能解决方案。用户读出句子，通过多模态数据捕捉及算法分析，得到每句话、每个单词、甚至每个音素的发音评分结果。并利用深度学习，在系统库里一对一记录并分析用户学习过程与变化，提供实时AI测评报告。计算机视觉的捕捉和比对，为用户提供回放自读视频、观看外教示范视频以及比对，从而了解薄弱发音与错误原因，为后续个性化针对教育提供基础与动态参考。实现AI一对一英语学习。同时，纯语音技术对于安静环境的严苛要求、杂音造成的理解偏差、音轨比对效率低等突出问题也被彻底颠覆。多模态的强抗噪能力，让学习英语更准确与随时。也能直接助力学校、老师、培训机构解决人力、教师发音水平的现有挑战，为更多教育机构提供智能化教学升级的软、硬件综合解决方案。

多模态技术

Emotech于2015年在英国伦敦创立，是全球首家致力于多模态与主动交互的AI公司。多模态是传统单一模态（语音、视觉）的升级性底层技术，整合语音、文字、空间等多重数据与分析，并结合深度学习，提供更还原人类自然交互的算法与应用。

团队

Emotech集合了全球30余名顶尖人工智能领域的科学家、工程师和设计师。成员包括来自牛津大学、剑桥大学、伦敦大学学院、帝国理工等顶级院校的优秀博士生和博士后。联合国人工智能主席、伦敦大学学院计算机统计学和机器学习中心的总负责人、欧洲最负盛名的计算机学教授John Shawe-Taylor以及被誉为脑神经领域爱因斯坦的Karl Friston 也受邀成为团队的顾问。

荣誉

Emotech被世界最佳科技媒体 Techcrunch 选为欧洲最佳创业团队，被英国发展署列为伦敦最佳 AI 公司。旗舰型产品 OLLY 获 4 项 CES 大奖并打破 51 年以来的历史记录。 Emotech在2019年由于领先的技术、全球软件授权的灵活商业方式荣获由伦敦市长亲授的首届 London Business Award。创始人庄宏斌入选 2018 英国最佳亚洲科技之星，同年被授予伦敦最佳华人企业家。

华为云与Emotech －共用多模态技术，结合华为云，向全球客户进行 AI 升级

Emotech创始人庄宏斌与将与英国文化教育协会考试部市场总监荣欣于9月18日下午

1:30-1:45在华为HUAWEI CONNECT全球大会联合分享多模态AI为英语教育带来的改变

袁晶博士

华为云通用AI服务总经理、语音语义创新Lab主任、首席科学家

Emotech在语音和多模态AI方面有先进的技术，华为云拥有全栈的AI平台，并在自然语言处理领域有深厚的积累和实践，双方联合研发并取得一定突破，这是个非常好的开始。同时，Emotech对技术的追求和对客户的负责任的态度跟华为是一致的，Emotech对中国和全球市场都有着深入的研究和积累。非常期待我们的产品能够帮助数以千万计的英文学习者，也希望我们能够一起开拓更广阔的国际市场。在口语评测这个场景做深做扎实后，我们接下来也会在一些行业中进行多感官综合应用的探索和尝试，一起打造有竞争力的解决方案，为客户创造价值。

John Shawe-Taylor

联合国教科文组织AI主席，伦敦大学学院计算统计与机器学习中心主任

多模态是一种可以接收来自多种感官系统的信息流后进行处理分析的技术，从而让人工智能对周围的世界获得更深入，更真实，也更准确的理解。事实上，调用多个感官来构建对世界的认知，增加对事物的理解，是让人类在出生后能够极其快速学习新事物和技能的关键。Emotech巧妙地利用了这个原理，在对话分析中引入了声音和视觉等多个感官维度，有效地分离了噪音等其他环境干扰因素，从而大幅提升了语音的质量。我认为这是非常重要的一项技术，也祝贺Emotech能够给教育应用带来这样有效的机器学习方法。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

全球首款多模态AI英语助教

最近内容

下一篇