技术流的Google今年力推“机器学习”

周昶帆·2015-11-10 19:34

如果Google有年度技术主题，“机器学习”将会是其今年的讨论热点。机器学习成果已经在Google多种产品中应用，而昨天Google开源了自身的机器学习系统TensorFlow。未来，搜索、图像识别、语音识别等领域将会因机器学习研究生态的开放而变得越来越智能。

Image title

Google每年一度的亚太媒体沟通会议，今年将“机器学习”作为主题。

就在一天前，11月9日，Google CEO Sundar Pichai 在Google官方博客上宣布开源Google的机器学习系统TensorFlow，任何研究者包括竞争对手都可以使用。11月10日举办的沟通会上， Alphabet 执行主席埃里克·施密特连线表示，开源TensorFlow不断扩大机器学习网络，组成更大的知识基础，获得更多回馈，进而有更多发现。

Google将自己的技术免费开放，希望可以加速机器学习领域的发展，所有研究者都会帮助该领域整体向前，并将成果反馈回来。而越来越多数据进入，反过来也有助于帮助Google自己的系统来修正模型，加速学习效果。

机器学习领域被寄予了高度重视，已经成为Google内部第三重要的领域，它的研究进展将支撑Google多个业务。

目前机器学习已在Google多个产品上应用，例如在Gmail中机器来判断是否为垃圾邮件；从大量图片中识别出显示的物体是什么，比如搜索与猫类似的猫咪图片，Google能将没有人工标注是猫的照片呈现出来；Google翻译中的图像识别翻译、Youtube中推荐视频都有机器学习在其中。在上周发布的Gmail自动回复功能中，也使用了机器学习，系统能够自动判断是否需要回复，如果系统判断需要回复，会给用户三个简短答复，用户可以直接发送或者编辑修改后发送邮件。

Google Photos产品经理Chris Perry以该产品举例，在Google Photos中，机器可以根据人、地点和事物等等将用户所拍的所有照片进行整理分类，用户并没有对照片进行人工文字标注和分类，但是Google Photos会自动根据不同维度对照片进行分类，比如人像、自拍、风景等等。当用户搜索比如“父亲、远足”关键词时，Google Photo会把几年前你与父亲一起远足的照片找到。

机器学习的原理概要地说是通过不断获取数据对模型（简单理解类似y=ax+b这样的公式，但实际上没有这么简单）进行调整，最终能形成一个可靠的模型，给一个输入变量后能得到一个靠谱的结果。举个例子，当机器经过大量数据不断修正“参数”（类似公式中的a和b）将模型训练好后，即使机器不懂什么是猫这种生物，也能给出用户想要的猫的结果，例如猫的图片。而不断调整的过程，用户也可以参与其中。用户上传大量关于猫的图片就能帮助机器识别什么是猫。大量数据对于训练模型至关重要。

过去人们对于程序的做法是设定规则，告诉机器按照这个规则去做，类似IF“条件”then“结果”，比如电子邮件如果包含“V!agra”这样字就判定为垃圾邮件。而在机器学习领域，我们建立程序从例子中学习，例如对邮件进行分类（用户报告是垃圾邮件），模型根据用户点击结果不断改变自己，减少错误，反复循环这个过程，无意间实现了自我进化。

用户在报告垃圾邮件的过程就相当于是帮助机器自我调整参数，如果用户在搜索猫的图片时，真正显示是猫的图片终将会被用户大量点击，而不是猫的则点击很少，包括用户行为在内的持续的动态修正过程一直在帮助机器变得更精明。

由于计算能力在最近几年的提升，过去十几年前就已存在的机器学习的点子将得以实现落地。机器学习领域发展很快，但仍需要更多的研究。Google研究员Greg Corrado称，“我们鼓励大家从不同角度研究机器学习，即使是在Google内部也有从不同角度研究的路径。目前，学术界的研究和业界差异也很大。”

“Google约2010年在移动设备上开始应用机器学习。机器学习自5年前在实验室诞生之际起，至今已有超过十亿的用户。机器学习开始从理论转向实际，今天Google所有的核心产品都在利用机器学习来为用户提供更快速、更智能也更便捷的服务。 ”埃里克·施密特说

随着Google本身对机器学习系统TensorFlow的开放，可预见今后该领域进展产品化将加速出现。

注：题图为Google研究员Greg Corrado。

本文由「周昶帆」原创出品，转载或内容合作请点击转载说明；违规转载必究。

寻求报道