基础架构 3.0：AI 革命的基石

白兰芷·2018-01-29 17:59

未来，需要一个全新的工具链，来释放机器学习和人工智能的潜力。

编者按：本文编译自Venturebeat原题为“Infrastructure 3.0: Building blocks for the AI revolution”的文章，作者LENNY PRUSS, AMPLIFY PARTNERS。

无论如何，我们已经进入了机器学习和人工智能的时代。大量数据的汇集、廉价的存储、弹性计算和算法的进步，尤其是在深度学习方面，已经把以前仅限于科幻小说的想象带到了现实中应用。

在复杂的战略游戏中，机器已经超越了人类，更不用说图像识别，语音转录，以及其他的进步，这些都使我们对判断什么是人类，什么不是人类的假设更加复杂。基于语音的个人助理是司空见惯的，而完全自动化的车辆似乎就要在马路上开起来了。

鉴于最近的这些进展，围绕机器学习和人工智能的大部分对话都集中在算法及其应用方面的突破。尽管可以理解，但在讨论中明显没有提到这些智能系统的基础设施。

就像在计算机最开始的时候，我们需要汇编语言，编译器和操作系统方面的专业人士来开发一个简单的应用程序，所以今天你需要大量的统计和分布式系统博士来构建和部署人工智能。目前我们缺失了能让机器学习和人工智能可用的抽象理论和工具。所以，机器学习和人工智能仍然是一个有限而昂贵的学科，仅供少数精英工程组织使用。

那么最终就会影响到基础设施发展的滞后，迄今为止，机器学习技术的基础设施远远落后于技术创新的发展。简而言之，当前实际机器学习时代的系统和工具不适合为将来产生的智能应用提供支持。

未来，需要一个全新的工具链，来释放机器学习和人工智能的潜力，使开发人员和企业能够操作和使用，先不用说平易近人了。那么，基础设施的下一个重大机遇就是为智能系统提供基石。

从基础设施1.0到2.0及更高版本

应用程序和基础架构逐步发展。

硬件或系统软件的进步使堆栈层层叠叠，诞生了新的应用程序品种。这些应用程序已经成熟并逐渐耗尽了其基础资源，催化了基础架构层面的后续创新。模块构建更好，更快，更便宜的兴起，不可避免地会导致应用程序向最终用户提供以前无法预知的体验。这种潮起潮落勾画了从打孔卡延伸到PowerPoint到Pinterest的技术发展轮廓。

90年代末和90年代早期的商业互联网由x86指令集（Intel），标准化操作系统（Microsoft），关系数据库（Oracle），以太网（Cisco）以及网络数据存储（EMC）组成。亚马逊，eBay，雅虎，甚至谷歌和Facebook最早的迭代都建立在这个我们称为基础设施1.0的骨干上。

然而，随着网络的成熟，从1995年的1600万用户会在2015年底，增长到超过30亿，应用程序的规模和性能要求发生了变化。对于网络规模巨人来说，在客户服务器时代和客户服务器时代所开发的技术对于企业运营已经不再可行了，也不太经济。

相反，这些公司向内探索。结合从学术界，全世界Google，Facebook和亚马逊那里的优秀的并行计算技术专家定义了一个新的基础架构类别，它是可扩展的，可编程的（通常也是）开源的和商业化的。Linux，KVM，Xen，Docker，Kubernetes，Mesos，MySQL，MongoDB，Kafka，Hadoop，Spark等等这类技术定义了云时代。我的同事Sunil Dhaliwal将这种转变描述为基础设施2.0

最终，这一代技术专门用于将互联网扩展到数十亿最终用户，并有效存储从这些用户获取的信息。这样做，基础设施2.0的创新催化了数据增长的急剧增长。结合几乎无尽的并行计算和算法的进步，这个基础设施的舞台就是为今天的实用型机器学习的时代而设定的。

基础设施3.0：走向智能系统

基础设施2.0最终关心的问题是“我们如何连接世界？”

如今一代的技术把这个问题改成了“我们如何理解世界？”

这种连通性与认知的区别，使得机器学习与人工智能与前几代的软件截然不同。编码认知的计算挑战是它颠倒了经典的编程范例。在传统应用中，逻辑是机器通过完成人的手动编码来执行特定的任务，而在机器学习与人工智能中，则是机器自己通过训练算法从数据库推断逻辑，然后执行这个逻辑来做出有关世界的决定和预测。

最终这会是一个“聪明”的应用程序，但是其数据异常密集且计算成本昂贵。这些性质使得机器学习和人工智能不适合于过去七十多通用的多重目的的冯·诺依曼计算范式。相反，机器学习和人工智能代表了一个基本的新架构，需要重

新思考基础架构，工具和开发实践。

但迄今为止，机器学习和人工智能的研究和创新的优势一直致力于新算法，模型训练技术和优化。具有讽刺意味的是，机器学习和人工智能系统中只有一小部分代码用于学习或预测。相反，大部分复杂的任务是数据准备，特征设计以及大规模执行这些任务所需的分布式系统基础架构的操作上。

成功建立和部署机器学习和人工智能需要一个复杂且精心调控的工作流程，这其中涉及多个离散系统。首先，需要收集数据，清洗数据并且做好跟踪标签。然后，必须确定预测所依据的适当属性（称为特征）。最后，开发人员必须对模型进行训练并进行验证，执行并不断优化。从开始到结束，这个过程可能需要几个月的时间，即使是最技术精通的组织。

为了让机器学习和人工智能充分发挥潜力，它必须从目前的学术型学科毕业，成为一个实践型工程学科。这意味着在实践中需要有新的抽象理论，接口，系统和工具，使得开发人员能够轻松地开发和部署智能应用程序。

这些必要的演变不是在抽象理论中微小转变，或者在过程中渐进式改进。相反，它们在系统设计和开发工作流程中都是破坏性的，基础性的变化。

相应地，在堆栈的每一层，我们都开始看到为机器学习和人工智能范例而优化的新平台和工具。机会很多：

•带有许多计算内核和高带宽内存（HBM）的专用硬件非常接近处理器裸片。针对神经网络需要的快速，低精度，浮点运算，这些芯片针对性优化神经网络的高度并行数值计算。

•具有可将计算降至晶体管级别，高效实现硬件设施的系统软件。

•分布式计算框架，用于训练和推理，可以在多个节点之间高效地扩展模型操作。

•数据和元数据管理系统，实现可靠，统一和可重复的管道，用于创建和管理训练和预测数据。

•极低延迟的服务基础架构，使机器能够根据实时数据和上下文快速执行智能操作。

•模型解释，质量保证，调试和可观测性工具，可以大规模地监测，反思，优化模型和应用。

•封装整个机器学习和人工智能工作流程的端到端平台，从最终用户中抽象出复杂性。例如Uber's Michelangelo和Facebook的FBLearner等内部系统，以及像确定AI *这样的商业产品。

就在过去的十年里，云本地堆栈的出现，在接下来的几年里，我们也期待着庞大的基础设施和工具生态系统能够围绕机器学习和人工智能进行合并。