“视听关联”深度学习系统：嘿 Siri，帮我在合照中找到班花

图普科技·2018-09-20 16:33

新模型能够通过口语描述来选出图像中的对应对象。

编者按：本文由「图普科技」编译自Machine-learning system tackles speech and object recognition, all at once

MIT的计算机科学家开发了一套新的系统，能够根据对图像的口头描述识别出图像中对应的物体。只需一张图像和一段音频说明，该模型就能够实时标注出描述的物体在图像中的相关位置。

与当前的语音识别技术不同，该模型不需要对其训练的示例进行手动转录和注释。相反，它直接从录下来的语音片段学习单词，从原始图像中学习对象，并将它们相互关联起来。

该模型目前只能识别几百个单词和几百种对象类型。但是研究人员希望在未来的某天，这种将语音识别和对象识别结合起来的技术可以节约大量的人工劳动时间，并给语音和图像识别领域带来新的可能。

例如，Siri和Google Voice等语音识别系统需要转录数千小时的语音录音。通过这些数据，系统学会将特定语音信号与单词进行映射。但当出现新术语时，这种方法就难以奏效了，必须重新训练系统。

“我们希望以更自然的一种方式进行语音识别，充分利用人类可以使用，但机器学习算法通常无法访问的其他信号和信息。我们的想法是以类似于陪孩子走遍世界并向他叙述你所看到内容的方式来训练模型，“David Harwath说道，他是计算机科学与人工智能实验室（CSAIL）以及口语系统团队的一名研究员。Harwath与他人共同撰写了一篇描述该模型的论文，并在最近的欧洲计算机视觉会议上进行了展示。

在这篇论文中，研究人员在一张有着一位金发蓝眼的年轻女孩的图片上验证了他们的模型，该女孩穿着一件蓝色的连衣裙，背景是有着红色屋顶的白色灯塔。该模型学会了将图像中的像素区域与“女孩”，“金发”，“蓝眼睛”，“蓝色礼服”，“白灯屋”和“红色屋顶”等词相对应。当播放一段音频说明时，模型会在语音描述的同时突出显示图像中的对应对象。

一个颇具前景的应用是让模型在不需要双语注释器的情况下，学习不同语言之间的翻译。据估计，全世界约有7,000种语言，但只有100种具有足够进行语音识别的转录数据。然而，让我们设想一下两个语言不同的说话者描述同一张图像的情境。在这种情况下，如果模型学会了语言A中对应图像中对象的语音信号，也学会了语言B中对应该对象的语音信号，那么，我们可以假设这两个信号就是两种语言的翻译。

“这种模型有可能能够以巴别鱼式的机制工作，”Harwath说道。巴别鱼是《银河系漫游指南》中虚构的有生命力的“耳机”，能够为佩戴者翻译不同的语言。

巴别鱼

视听关联

Harwath，Glass和Torralba早期开发了一种模型，能够将语音与主题相关图像组相关联，这次的工作是在此基础上的拓展。在之前的研究中，他们将来自分类数据库的场景图像放在Mechanical Turk众包平台上，然后让人们像对孩子说话那样对这些图像进行描述，大约10秒钟。他们最终汇集了20多万对图像和音频说明，分为数百种不同的场景类别，如海滩，商场，城市街道和卧室。

然后，他们设计了一个由两个独立的卷积神经网络（CNN）组成的模型，分别处理图像和频谱图，频谱图是音频信号随时间变化的视觉表示。模型的最高一层计算两个神经网络的输出，并将语音模式与图像数据进行映射。

例如，研究人员会给模型提供正确匹配的音频说明A和图像A。然后，他们会给模型提供匹配不正确的图像A和随机音频说明B。在将数千个错误说明与图像A进行比较之后，模型学会了与图像A对应的语音信号，并将这些信号与语音说明中的词语相关联。正如在2016年的一项研究中所述，该模型学会了挑选出与单词“水”相对应的语音信号，并搜索出与之对应包含有水体的照片。

“但它并不能保证，‘这是某人在说一个指向特定像素区域的特定词时想表达的意思，’” Harwath说道。

建立匹配映射

在新论文中，研究人员对模型进行了优化，将特定单词与特定的像素块相关联。研究人员在同一个数据库上新增了400,000个图像-说明对，对模型进行了训练。他们用1000个随机对进行了测试。

在训练中，同样给模型提供了正确和不正确的图像和音频说明。但这一次，分析图像的CNN将图像划分为由像素块组成的单元网格。分析音频的CNN将频谱图分成片段，例如一秒的片段，以捕获每一或两个字。

有了正确的图像和音频说明对后，模型会将网格的第一个单元格与第一个音频片段匹配，然后将该相同的单元格与第二个音频片段匹配，依此类推，直到所有网格单元格和音频片段都进行过匹配。对于每个单元和音频段，它会提供相似性分数，这取决于语音信号与对象的对应程度。

然而，难点在于，在训练期间，模型无法访问语音和图像之间任何真实的校准信息。 “该论文的最大贡献在于，”Harwath说，“证明了这些跨模态（如音频和视觉）的对齐可以通过简单地教导神经网络哪些图像和音频说明可以配对而哪些不能而自动推断。”

作者将语音说明的波形图与图像像素块之间的自动学习关联称为“匹配图”。在对数千个图像-说明对进行训练之后，神经网络将这些对齐的范围缩小到表示该匹配图中特定对象的特定单词。

“这有点像大爆炸，物质完全分散出去，然后又聚合成行星和恒星，” Harwath说。 “开始时各种预测都有，但是，当你进行训练时，它们会聚合成一个对列，代表口语和视觉对象之间有意义的语义基础。

本文来自翻译, 如若转载请注明出处。

“视听关联”深度学习系统：嘿 Siri，帮我在合照中找到班花

最近内容

下一篇