人工智能也会出现偏差，出现偏差的来源在哪里？

神译局·2016-12-16 21:09

现实世界中我们永远无法规避偏差，只能尽可能地使其缩小。

编者按：我们似乎一直认为机器，特别是智能机器，是理智、慎重而没有谬误的。我们相信自驾车在司机和突然出现的行人之间作出孰生孰死的决定时是没有偏好的。我们也相信执行信用评估的智能系统会忽略除了像收入和FICO指数这种真正有影响力的指标之外的所有因素。我们认为因为无偏差的算法驱动学习系统会坚定地追求绝对真理。然而最新研究表明，人工智能也会出现偏差，作者 Kristian Hammond 在文中分析了人工智能会出现偏差的五个来源。

对于一些人来说，智能机器有偏差是一个错误。他们认为机器不应该在它们的纯理性观点之外有同情心。而对于另外一些人来说，机器应该具有人类的偏差。然而这两种人之间的人群认为，只要机器能够保持一定的客观性就没问题。

当然，任何事都要遵循真相。实际上，能做到完全没有偏差的智能系统极其少见，并且偏差的来源也五花八门。这些来源包括我们用来调整系统的数据以及它们在没有人为干预的情况下与系统的交互、信息流偏差、相似性偏差和目标冲突型偏差。大多数的偏差来源都被我们忽视了，但是在我们建立和配置系统的时候，了解这些偏差至关重要，因为我们可以有意识地去设计系统，以期规避潜在问题。

数据驱动型偏差

对任何学习型系统而言，它们接受的数据决定了输出的数据。这并不是一个新理念，只是因为我们见证了数百万的例子之后都遗忘了它。大量的案例证明将会消除所有人的偏见。但是如果初始数据库本来就是有偏差的，深度学习的结果也不会有所改变（即必定会出现偏差）。

最近，这种偏差出现在了运用深度学习技术的图像识别系统中。尼康在面部识别软件中对于亚洲面孔和HP皮肤问题的混淆，似乎都是从有偏差的数据库中学习的产物。虽然两者都是可以修复的，并且它们不是故意为之的偏差，但这证明了如果我们不考虑数据源中的偏差，就很可能会出现问题。

除了面部识别问题，偏差对现实世界的影响还会导致其他令人不安的情况。当他们使用有偏差的数据进行配置，或是系统在决策中出现了偏差，学习的结果就会永远存在偏差。

在交互中产生的偏差

有一些系统通过查看大量事例来进行学习，而其他类型的系统是通过交互来学习。所以这种偏差是在用户驱动的交互中产生的。比如说微软的Tay，它是一个基于Twitter 的聊天机器，这个机器就是从与用户的互动中学习。不幸的是，Tay受到了一些种族歧视和性别歧视的用户社区的影响——因为这个社区中的用户在Tay上反复发送具有攻击性的言论，所以Tay就会使用这些语句作为之后的回复。

Tay仅仅存在了不到24小时——它因变成了一个咄咄逼人的种族主义者而被关闭。虽然种族主义者嘲笑说Tay造成的影响也只不过局限在Twitter上，但这也表明了偏差对于现实世界的影响。在我们开发能够向人类学习并作出决定的智能系统时，同样的，具有偏差的配置可能会更有问题的结果。

如果我们让智能系统与能够一直指导它们的人合作，那么会变得怎样呢？如果我们的机器需要决定谁能够得到贷款甚至哪位领导人将会被推翻，那么这种“稳定合作”也会遭到质疑。因为Tay教会我们的是这样的系统必定会受到周围环境和人们的偏见的影响，无论是好是坏，都完全反映了配置系统的人的看法。

信息流偏差

有时候，以个性化、定制化为特征的系统作出的决定会在我们周围产生偏差“泡沫”。Facebook目前就出现了这种偏差，用户在打开网站之后首先看到的就是他们最关心的朋友与他们分享生活的帖子。

任何将数据中得到的分析供给于随后呈现的内容的算法都会为用户提供与之相匹配的内容。这种影响会随着用户打开、喜欢和分享新内容而增强。

虽然这种做法是个性化的且比较令人放心的，但是这也不再是我们通常认为的“新闻”了。它代表着一种信息泡沫，也是算法的“偏见确认”。用户们不必花力气去屏蔽与其三观不合的信息，因为系统已经将那些信息自动屏蔽了。

这种信息偏差对新闻世界的影响令人不安。但是当我们利用社交媒体来做出决策时，出现信息泡沫的系统有可能会扭曲我们的思维。人们如果只从和他一样思维的人那里获取信息的话，将永远都不会看到对立的观点，因而会忽视和否认多样性。

相似偏差

有时偏差的出现只是因为系统做了他们被要求做的产品。比如说谷歌新闻希望给用户提供一系列与用户搜索内容相匹配的相关信息。这显然很符合设计的初衷，它也做得很好。当然，这样搜索的结果就是一组刻意互相确认和佐证的相似信息。也就是说他们同样制造了一种和Facebook相似的个性化信息泡沫。

这种新闻模式的广泛传播无疑导致了许多问题，最明显的问题是缺少平衡信息的方法，即缺少广泛的范围中的“编辑控制”。虽然相似性在信息世界中是一种十分有价值的信息，但它绝不是唯一的。不同观点会为决策提供了更有力的支持，只提供“相似的”或者已经存在的信息，系统只会创造一个它们自己的泡沫。

在企业中，尽管有分歧、反对和甚至相互冲突的观点都会带来创新创造，但相似偏差通常是最能被接受的偏差。

冲突目标的偏差

有时候为特定业务设计的系统会出现真实却完全不可预见的偏差。举个例子，设想一个被设计来为潜在候选人提供工作描述的系统，当用户单击工作描述时，系统会自动生成收入。所以算法就会自然而然的提供有最高点击量的工作描述。

事实证明，人们更愿意点击符合他们自我认知的工作，而这种观念会通过刻板印象而被加强。例如说，优先为女性推荐的工作是“护理师”而不是“医疗技术员”。这并不一定是最适合她们的工作，而是一种普遍的偏见；但之后女性就会不由自主地与这种偏见保持一致。

因此，网站上出现的与个人的固有印象相关联的信息（例如性别、种族和民族）会拥有更高的点击量。这意味着任何具有基于点击行为的学习都会向加强刻板印象的方向偏移。

机器的偏差就是人类的偏见

在理想世界里，智能系统和它们的算法应该是客观的。不幸的是，这些系统是人类开发的，因此最终也会反映出不同人群的偏见。通过了解这些偏差本身以及来源，我们可以有意识地设计出尽量公正客观的系统来规避问题。

也许我们永远都不能创造出拥有完美客观性的系统和工具，但是它们至少比我们自身的偏差要小。这样，我们或许就不会被选举蒙蔽，货币系统就不会崩溃，我们也能够与新闻泡沫之外的人沟通。

翻译来自：虫洞翻翻译者ID：Jing

本文来自翻译, 如若转载请注明出处。