对网络暴力说 NO，AI 让仇恨言论无处可躲

秘丛丛·2017-10-12 10:51

想生活在“真善美”的世界，先从打击“仇恨言论”开始。

从论坛的评论区、社交平台到网游的聊天区，“瘟疫”般的仇恨言论游走在互联网的各个角落。

近日，加拿大麦吉尔大学的 Haji Mohammad Saleem 及其团队，通过让 AI 软件学习仇恨言论社区成员的说话方式，从而可以自动识别出仇恨言论。他们在一个数据库中训练机器学习系统，该数据库包含了 2006 年至 2016 年间 Reddit 的大部分帖子，比之前基于关键字标记的系统准确率更高。

因为语言的灵活性和模糊性，识别出真正的仇恨言论并不容易。有时人们只是随口说一些粗鲁的词汇，并不能表明他们心里就是这么想的。日常生活中，人们会为了各种原因而骂人，甚至朋友之间也会互爆粗口。

目前论坛等网络平台获取仇恨言论的途径，大都来自用户举报。时刻紧盯住那些层出不穷的负面言论，是人力无法完成的。

今年年初，谷歌开发了 Perspective 软件，它可以快速地甄别辱骂性评论，便于人工审核。它的工作原理是基于在线评论与被贴上“有毒”标签的评论的相似度。但随后该软件技术的不成熟开始显露，评分机制出现了诸多弊端，比如：有的言论是“作为一个女孩，你真是太聪明了”，它和恶意言论的相似性达到18%；而“我喜欢希特勒”这样的言论却只有2%。

不同于这种基于关键字标记的方法，此次加拿大研究人员研发的系统另辟蹊径。

该系统主要研究针对非洲裔美国人、肥胖人群以及女性的言论。在 Reddit 或 Voat（一个和 Reddit 类似的网站）上，以这些人群为主题的言论俯拾皆是。该团队找到其中最活跃的两种社区：一种社区爱发恶评，一种社区爱发友好的言论。他们锻炼 AI 软件学习这两种社区成员的言论特点，提高该系统正确识别负面言论的能力。

研究结果证明，该方法比基于关键字标记的系统更加精准，并且几乎不会误判。有些言论中并不包含常规的侮辱性词汇，但它也属于仇恨言论。如果使用以前的方法是识别不了的，但现在就可以了。比如：“我没觉得这有什么问题，动物之间总是互相攻击。”这句话就被该系统标记为仇恨言论，因为这里的“动物”一词带有种族侮辱的含义。

目前该 AI 软件能够成功抓取 Reddit 平台上的仇恨言论，但其研究团队未表示该系统是否在其他平台，如 Twitter 或 Facebook 上也有同样的水准。

“这个方法虽然行得通，但它抓取的结果并不全面，有时还会遗漏。”英国巴斯大学的 Joanna Bryson 说。

正如他所言，该系统会错过一些很明显的仇恨言论，如“黑人都很糟糕”等具有明显种族歧视或肥胖歧视的言论。然而对于此类言论，基于关键词监测的旧办法却能轻而易举地识别出来。

但是不可否认，这些工具确实能成为平台管理人员的“得力助手”。“基本上，仇恨言论是一种主观现象，需要人们发挥自己的判断力去甄别。”一名研究人员说。

本文参考了多个信息来源，如若转载请注明出处。

对网络暴力说 NO，AI 让仇恨言论无处可躲

最近内容

下一篇