当机器拥有了视力，世界会变成什么样子？

boxi·2016-11-21 19:27

无所不在的摄像头+随时可用的机器学习=计算机视觉

编者按：智能手机的普及让几乎人人都拥有了相机，而它所带动的供应链繁荣让摄像头成本大幅下降，使得图像传感器无所不在，相当于把“眼睛”安到了几乎所有地方。但是这些“眼睛”只是能看到东西，并不能解读图像或者视频。近年来机器学习的进步改变了这一点，让这些眼睛拥有了真正的视力——从此图像和视频也变成了跟文本一样的结构化数据，这个会对各个行业产生哪些影响呢？请看Ben Evans的思考。

移动意味着什么？意味着地球上首次几乎每一个人都有了一部相机，拍摄出比以往胶卷相机多得多的大量图片（去年分享的照片数超过了2万亿）。其影响之深远，足以与晶体管收音机让音乐无所不在匹敌。

然后，手机内的图像传感器不仅仅是拍摄的相机而已，它还是思考移动UI和服务新方式的一部分，也是计算机可做事情发生普遍转变的一部分（从移动优先到移动原生）。

与此同时，图像传感器也是一大波出自智能手机供应链的廉价商品化组件的一部分，这些东西为所有其他类型的连接设备——从Amazon Echo到Google Home，从August智能门锁到Snapchat Spectacles眼镜（当然还有被黑的物联网设备组成的僵尸网络）提供了支持。再加上云服务以及越来越多的机器学习，这些东西就不再只是摄像头或者麦克风了，而是服务的新端点或者渠道——它们是app的解绑部分（关于Amazon Echo音箱引发的UI思考）。这个进程才刚刚开始——似乎现在的一些机器学习用例已经可以嵌入到非常小非常便宜的设备里面了。你也许可以在云端用海量图片集训练一个负责解答“图片里面有没有人？”的神经网络，但可以用廉价DSP+廉价摄像头去执行，把这玩意儿加上塑料外壳然后以10或者20美元卖出去。这些设备让你可以随处使用机器学习，但同时还可以让机器学习随时随地观察和倾听。

所以说，智能手机和智能手机供应链促进了一大波UX和设备创新，而机器学习则把它们全都点燃了。

但是，在现在的计算机视觉意味着什么的事情上，我认为拓宽思路是值得的——想想看，如果图像和视频在计算机眼里最终会变得像文本一样透明将意味着什么？你以前总可以搜索文本的“狗”然后得到结果，可是搜索狗的图片就不行了——但现在这两件事情都可以做了，此外，我们还开始对实际上可能发生什么事情有了一定的了解。

今后应该可以预期的是，每一张图片都可以搜索或者分析，并且能够从中获得一定的洞察，而且这一切都是大规模进行的。现在每一本杂志都可以是结构化数据集了，每一条视频流也是。有了这个激励因素（以及智能手机供应链）之后，要捕捉的图片和视频将会大大增多。

对于这样的未来我们要提出以下一些问题：

将来每一辆无人车只要开始移动都会捕捉360°的高清视频。那么谁可以拥有这些数据？这些数据除了用于驾驶以外还可以干什么呢？我们有关隐私的看法要如何调整？
零售商或者商场业主可以在整个卖场部署大量商品化的无线高清摄像头，从而确切知道每一个人在建筑内部的行走路线，知道他们看了什么，然后再把这些跟购买数据关联起来。这会在多大程度上改变（拯救）零售业呢？
如果5、6个价格才100美元的静态摄像头就可以告诉你今年Shoreditch区的任何人穿的是什么的话，当你可以通过社会化摄影和街拍跟踪大众市场潮流趋势，然后寻找下一种新兴模式时，时尚业又会发生什么样的变革？
当一个系统有可能在不需要打标签或者了解购物历史的情况下，从你的Instagram或者Facebook照片推断出你的品味爱好——即通过你的自拍窥见你的购物历史时，电子商务推荐会发生什么样的改变？

网上零售商一直都极其擅长零售的物流方面，但是在发现和推荐方面就要逊色很多——实际上他们很不擅长给你看你想看的东西（虽然他们以为这就是你想看的）。我有时候会拿Amazon跟1个世纪之前的Sears Roebuck进行对比——他们可以让你购买任何在大城市可以买到的东西，但并不能让你像在大城市那样去买东西（我认为这也是为什么电子书销售出现停滞的一大原因——你买的是什么？）。

现在，假设你在eBay上买下了过去10年的《Elle Decoration（艾丽家居廊）》，然后把它交给了合适的神经网络，再把你家客厅的一张照片发给这套系统，对方就会提出购买灯具的推荐意见。杂志里面所有带标题的照片，以及周围的拷贝都是训练数据。但尽管如此，如果你不向用户展示杂志里面的实际上照片，而只是据此给出推荐的话，你大概一分钱都不用向原始的发行商支付。我们现在还做不到这个，但是我们已经大概知道该怎么去做了。我们已经有了路线图，可以大规模地自动识别某些类型的个人喜好。

这里的关键是，计算机视觉识别小狗或者树木、行人的那些吸引人眼球的演示仅仅只是开始，是读懂图像这一根本性的新能力的明显用例。而且不仅仅是像人类那样去阅读，它们还可以看遍上十亿张图片并从中识别出模式。这对于零售业会产生各种影响，其中就包括了不受Amazon影响的部分，甚至也影响着每年5000亿美元的广告开支。

但实际上我们并不能了解完所有的潜在影响。前面我只是列举了这会催生出来的几条商业可能性，但是还可以有很多的可能性。科学已经颠覆了一些绘画大师的观点并且创作出新作品，我们会不会找到下一个伦勃朗呢？我们能不能在10年之内而不是要用一个世纪来抄写完Cairo Geniza？当我们可以把图像变成数据时，我们将会发现大量此前从未被视为数据的图像集，此前的很多从未被认为是图像识别问题的问题，现在也将被看成是图像识别问题了。

本文来自翻译, 如若转载请注明出处。

当机器拥有了视力，世界会变成什么样子？

最近内容

下一篇