只有音频没指纹，能抓对人吗？CMU音频分析AI说没问题

量子位·2018-01-12 17:12

通过电话录音，可以准确地预测出打电话人的所有物理特征，包括身高、体重、年龄、面部特征等。甚至连对方的社会经济背景，收入水平，生理和精神健康都能判断出来。

编者按：本文来自微信公众号“量子位”（ID：QbitAI），原作Simon Brandon ，Root 编译自 World Economic Forum，36氪经授权发布。

2014年有恶作剧的人不停打给美国海岸警卫队报假警。那些人以为，没有指纹和DNA，只是个很短的电话录音，警方根本来不及找出打电话的位置。他们是不可能会被抓的。

然鹅，现在有了AI，音频分析技术已经到了前所未有的高度。

Rita Singh，是这一领域的顶尖科学家，工作于卡内基·梅隆大学的语言技术研究所。通过电话录音，她们团队可以准确地预测出打电话人的所有物理特征，包括身高、体重、年龄、面部特征等。甚至连对方的社会经济背景，收入水平，生理和精神健康都能判断出来。

△ 音频分析专家 Rita Singh

当美国海岸警卫队把2014年的报假警电话发给Singh的时候，Singh已经在音频识别这一领域研究了20年。

△ 美国海岸警卫队找到Singh团队前的公开求助信

美国海岸警卫队找到Singh后问，“告诉我们，（拿到这段音频）你可以干什么。”

“这启发了我，我开始思考，除了音频信号，我还可以用这个分析来做些什么？我可以给海岸警卫队多少关于这个假警的人什么样的有效信息？”Singh在接受Women in Tech Show播客采访时说。

Singh和她卡耐基梅隆的同事所研发的这套音频分析技术，可以找出人都听不出来的细微差别。

她们可以把音频切成毫秒的片段，然后用AI技术来梳理处理这些片段以寻找独特的标识。

比如说，你的声音透露了环境的信息。当你说话的时候，AI可以猜出你所在房间的大小，房间是否有窗户，墙体是什么材质的。

更不可思议的是，AI还可以根据当地电网的电压波动，判断出打电话的人的物理位置，以及是一天当中什么时间段打出的电话。

AI技术的引入，对于那些总是爱报假警的人来说是个坏消息。要知道，在美国报假警触犯了联邦法律，处罚很重而且还要进去蹲好几年。

Singh的技术大大减少了这类事件的发生，还快速准确地锁定了罪犯。现在这些人很快要面临庭审。

这些技术不仅仅用于抓报假警的人，还已经帮忙找出了骚扰儿童的联邦罪犯。

“那些被抓到的人在审讯的过程中，所说的信息和我们技术判断的结果高度吻合。”Singh说。

Singh的团队最近解锁了新的技能：仅仅根据音频，预判罪犯的面部画像。

不过，现在她们还需要更努力，才能让庭审接受音频分析得到的结果。

目前，大家对音频分析依然存在很多质疑，所以音频无法作为可靠的证据。“现在，就像是1987年美国首个因DNA定罪的审判时期一样。”Singh说。

AI技术的发展速度都是指数级别的，可以预见到未来，音频分析将会用于法律定罪以外的领域。

最后，附原文链接：

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。