AI新规则（一）：亚马逊的AI向不良UGC宣战

神译局·2019-09-27 10:41

Rekognition机器视觉服务现在已被成千上万的公司用来检测用户发布的不良图像和视频。

神译局是36氪旗下编译团队，关注科技、商业、职场、生活等领域，重点介绍国外的新技术、新观点、新风向。

编者按：人工智能诞生至今已有60多年，美国的一些最大型的科技公司（Amazon、微软、Google、Facebook等）才刚刚开始挖掘AI的潜能，并设法弄清楚人工智能将如何改变我们的未来。本文是《Fast Company》汇编的系列文章“AI的新规则”的第一部分，介绍的是Amazon的机器视觉服务Rekognition。原文作者是Mark Sullivan，标题为：Amazon’s AI is democratizing the war on NSFW user-generated content

AI的新规则（二）：在这个容易分心的时代，微软希望AI能成为你的同事

AI的新规则（三）：AI推荐的烂摊子暂时还得人来收拾

AI的新规则（四）：谷歌押注量子计算，这对人类意味着什么？

AI新规则（五）：Facebook赌下一代接口是“对话”

现在，Amazon备受争议的Rekognition 计算机视觉技术有了个新用途：用来删除食品网站上的那些不雅照片。

好吧，起码有一个例子。总部位于伦敦的送餐服务Deliveroo 正面临着严峻的内容审核挑战。他们的订餐功能似乎有个问题，Deliveroo 客户经常会把食物的照片和投诉一起发出。他们经常会用不雅照片对吃过的食品发动照片炸弹袭击。又或者，他们会把食物排列成私处的形状。真的。

事实证明，Deliveroo的员工未必就想看到类似的东西。因此，该公司使用了Rekognition来识别不雅照片，并在它们被人看到之前就对其进行模糊处理或删除。

Deliveroo的问题体现出了一个日益严重的问题的离奇之处。许多互联网公司正在以这样或者那样的方式关注着UGC（用户生成内容）。近年来，我们愈发看到其中展现出来的人性之阴暗面。随着网站日益成为假新闻、暴力内容，假冒伪劣品、欺凌、仇恨言论等有毒UGC的温床，内容审核已成为当务之急。如果你财大气粗如Facebook的话，可以开发自己的AI或雇用大批审核员（或两者兼有）来应对这种混乱局面。但是，资源较少的中小企业就没有这种选项里。Amazon的内容审核服务就源于此。

该服务是Amazon Web Services的Rekognition计算机视觉服务的一部分，而后者本身就是很多不好新闻的主题，因为Amazon似乎愿意为美国移民与海关执法局提供脸部识别服务。你可以在Rekognition 的网站上找到其他面向监视的应用案例，比方说它可以从不同的拍摄角度读取车牌，或者跟踪摄像头捕获到的人的行走路径。

Amazon或许正在寻求对其计算机视觉服务进行更正面一些的曝光，所以这是它首次谈及用Rekognition 来监视UGC里面的淫秽或暴力图片。该Rekognition 内容审核服务可检测上传到公司网站的图像和视频当中不安全的或攻击性的内容。

这是一项增长业务。Amazon AI副总裁Swami Sivasubramanian说：“UGC所扮演的角色正在逐年激增，因为我们现在每天都要在社交媒体上跟朋友和家人分享两到三张图片。” Sivasubramanian 说，Amazon是从2017年开始应一些客户的要求提供内容审核服务的。

公司可以付费买Rekognition服务，这样就不必雇用人员来检查用户上传的图像了。跟其他AWS服务一样，内容审核服务采用即用即付模式，并根据Amazon Rekognition 神经网络处理的图像数量来进行定价。

毫不奇怪，该内容管理服务的第一批用户包括了约会和婚介网站，这些网站面临着快速审批上传到用户个人资料的自拍照的挑战。Amazon表示，婚介网站Coffee Meets Bagel和Shaadi 使用Rekognition正是出于这个目的，帮助他人创建约会网站的葡萄牙网站Soul 也是这个用法。

这个AI不是只会找裸体。Rekognition的神经网络已经过训练，可以检测各种可疑内容，包括枪支或暴力图像或一般会令人不安的内容。下面是Rekognition 网站上的功能分类：

[图片：Amazon]

工作机制

跟AWS的所有其他内容一样，Rekognition的新内容审核功能也是在云端运行的。使用的公司可以告诉服务它要检测什么类型的问题图像。然后，它就会将用户生成的照片和视频（在许多情况下通常可能就是存储在AWS上的）发送给Rekognition服务。

然后Amazon的深度神经网络就会对图像进行处理，从中发现内容并对任何可能令人反感的图像类型进行标记。神经网络会输出有关图像内容的元数据，以及表示对图像所打标签确信度的百分比。结果看起来是这样子的：

然后这段代码会发送给客户端的一个软件，该软件会根据编程好的业务规则来确定如何对标记的图像进行处理。软件可能会自动删除给定图像，放行通过或者对部分进行或模糊处理，或者将其发送给人类进行审查等。

进行图像处理的深层神经网络有很多层。每一层会评估代表图像不同方面的数据点，对它们进行计算，然后将结果发送给网络的另一层。网络会首先处理顶层的信息，比如图像里面的基本形状以及是否有人等。

Sivasubramanian 解释说：“ 然后它会慢慢地不断提炼，每往下一层就会获得更多和更具体的信息。”慢慢地，神经网络就能不断明确出图像里面有什么内容。

AWS AI副总裁Matt Wood表示，他的团队利用了数百万专有和公开可用的图像集来训练其计算机视觉模型。他说，Amazon并没有在训练中使用任何的客户图片。

逐帧处理

一些最大的Rekognition 内容管理客户并未使用该服务来审核UGC。Amazon表示，拥有大型数字视频库的媒体公司需要了解每一帧的视频内容。Rekognition的神经网络可以处理每一秒的视频内容，用元数据对其进行描述，并标记可能有害的图像。

Wood 说：“有一件事情机器学习做得确实非常好，那就是剖析视频或图像然后提供额外的上下文。它可能会说，'这是一个女人带着小狗在湖边散步的视频，或者'这个视频里面有个穿着衣服的男人。'”他说，这种用法下，神经网络能够检测到危险、有毒或猥亵内容，而且准确率极高。

[图片：Amazon]

尽管如此，这一分支的计算机视觉科学尚未达到成熟。科学家们仍在寻找优化神经网络算法的新办法，从而能够更准确、更详细地识别图像。Wood说：“我们还没有到达收益递减时候。”

Sivasubramanian说，就在上个月，计算机视觉团队已经将误报率（误将图像错误地标记为可能不安全或令人反感的错误率）降低了68％，将漏报率降低了36％。他说：“这些API的准确度还有改善的余地。”

除了准确率之外，客户一直在要求提供有关图像分类更详细的信息。按照AWS网站的介绍，AWS内容审核服务仅针对不安全图像返回主类和次类。所以系统可能会把图像归类为主类主要类别为包含裸体，而次要类别为包含性行为。第三级分类可能包括针对所显示的性行为类型的分类。

加州理工学院计算和神经系统教授，AWS顾问Pietro Perona说：“现在，机器的风格是非常写实的，它会告诉你‘里面有这些东西。’但是，科学家希望能做到的不仅限于此，他们还希望机器能说出这些人在想什么，正在发生什么事情。这就是该领域希望的发展方向，而不仅仅是像购物清单一样列出图像里面有什么。”

这其中的微妙差别对于内容审核来说至关重要。图像是否包含潜在令人反感的内容可能取决于图像里面的人意图是什么。

甚至对“不安全”或“令人反感”的定义也是一个不断变化的目标。它会随时间变化，并且在不同的地方意义会有所不同。Perona 解释说，上下文就是一切。暴力图片就是一个很好的例子。

Perona说：“暴力在某种情况下可能是不可接受的，例如在叙利亚发生的现实生活中的暴力，但在另一种情况下是可接受的，例如在足球比赛中或在昆汀·塔伦蒂诺的电影中的那些。”

与众多AWS服务一样，Amazon不仅把Rekognition的内容审核工具出售给其他人：它还是自己的客户。该公司表示，正在利用该服务来监管自己市场里面伴随着用户评价提交过来的用户生成图像和视频。

译者：boxi。

本文来自翻译, 如若转载请注明出处。

AI新规则（一）：亚马逊的AI向不良UGC宣战

工作机制

逐帧处理

最近内容

提及的项目

风

下一篇