我看到了一个“假视频”——AI能让图片变成视频，还让人开口说话 | 潮科技

李振梁·2017-05-22 16:07

你看到的也未必是真的

都说耳听为虚，眼见为实，可是技术将会颠覆这句话。实实在在的视频摆在那里，也可能是一个“假视频”。

牛津大学的研究人员开发了一种AI系统，可以把静态的图片变成动态的视频，甚至可以让图片里的人开口说话。他们使用一个人的图片和音频片段，来创建这段视频。

虽然这个系统目前还比较粗糙，不太真实，可是研究人员表示，这款软件很快就能使“假视频”变得真实起来。

在这个系统中，研究人员使用图片识别，来确认人物的面孔。

然后，AI系统操纵静态图片中人的口型，使其让真实人物一样说话。

作者在论文中表示，该系统适用于前所未有的面孔和音频，也就是说，这些面孔即使没有作为训练数据出现的话，也可以使用这个系统，合成”假视频”的效果。

为了实现这个目标，他们提出一个编解码CNN模型（encoder-decoder CNN model），将人的面孔和音频联合嵌入，来合成人在视频中可以说话的效果。这个模型经过了数万小时的未标记视频的训练。

牛津大学研究生Joon Son Chung是兼该系统的创造者之一。Joon Son Chung表示，他们正在考虑将视频分制成多种语言。

他希望，最后能将新闻视频自动翻译成不同语言的版本，并且口型也能同步对应。这样一来，对于国际化的新闻平台，新闻输出的效率就会大大提高，并且会削减翻译的成本。

在此之前，其实已有不少可以把图片转变成视频的系统。

不过，这些系统需要大量的视频积累才能正常运行，它们会自动匹配人体发声时的口型，然后再将这些口型重新组合成新视频。

Joon Son Chung介绍说，这对于那些知名人士来说，比如说英国前首相戴维•卡梅伦，利用他的图片构建视频，将会很容易，但是对没什么名气的普通人来说，这项工作将变得非常困难，因为没有太多的图像资料可以从中获取。

此外，Chung还认为，他开发的系统对配音动画来说，也非常有效。

另一人工智能专家Alex Champandard表示，虽然这些系统目前专注于改变口型，但在未来将可以改变面部表情和姿势。他还表示，人们很快将无法分清哪些视频是伪造的，哪些是真实的。

Champandard是Creative AI的联合创始人，这个网站为艺术家提供人工智能的工具。

假以时日，人工智能专家们将会造出足以以假乱真的视频。

这对于执法人员来说，可并不是什么好消息，这相当于添加了新的干扰因素。这项技术的发展可能会导致一些案件中的视频，不足以成为可靠的判案证据。法院将不得不更多地依赖司法鉴定、科学证据和证人证词。

另外，由于人工智能工具让这个过程变得快速、简单，制作的门槛也就大大降低了，最后任何人都可以作出这样的视频。

这样一来，假视频会不会泛滥成灾呢？就像今天的P图一样，无处不在。

本文由「李振梁」原创出品，转载或内容合作请点击转载说明；违规转载必究。