人工智能计算栈

关于中美为何大量投资这种全新计算栈的概览

Reza Zadeh, 2017年12月20日

编者注：Reza Zadeh将在2018年4月10-13日北京AI大会上发言。1月26日之前购买门票享有早期最惠价格。

在计算领域一种巨大的范式迁移正在缓缓向我们走来，在历史上仅有其他两个时刻具有可比性。第一个时刻是计算的『桌面时代』，得益于中央处理器(Central Processing Units, CPUs)；第二次是计算的移动时代，得益于性能功耗比更加强劲的移动处理器。现在，一种新的计算栈，在人工智能（Artificial Intelligence，AI）和针对大量消耗算力设计的专用芯片的驱动下，正在和所有软件共同前行。

在过去的10年里，AI的计算需求给CPU带来了极大压力，我们无法摆脱CPU时钟频率和散热性能的物理限制。值得庆幸的是，人工智能算法只需要线性代数操作——和你在高中时代数学课上的那些线性代数是一样的。我们发现，原生支持线性代数的图形处理芯片（Graphics Processing Units, GPUs）相当适合处理这些操作，所以在AI领域我们凭借使用GPU获得了长足的进步。

虽然GPU擅长线性代数，但这种产品的领先地位正受到几十家中美公司的挑战，这些公司正在从零开始设计制造用于线性代数计算的专用芯片。某些公司把它们的芯片称为张量处理单元(Tensor Processing Units)，另一些把它们称作张量核心（Tensor Cores）。这些公司甚至对一个术语——张量——都要进行竞争。当然，这并不令人感到意外，因为这是在AI领域中被频繁使用的一个核心概念。所有这些产品都支持谷歌在2015年11月开源的软件库TensorFlow。实际上，我正在运营一家计算机视觉公司，公司的名字是Matroid（拟阵，在数学上比张量更广义的概念），我们正在大量使用这些硬件。

这些芯片为不同的计算模式进行了专业化定制：有些芯片在计算中心运行，而另外一些在低功耗的嵌入式系统中运行；有些芯片主要为了训练模型而设计，另外一些只能用于模型推理。每种芯片都有它的优势和劣势，而英伟达公司的GPU为这些芯片设计铺平了道路，在适合数据中心进行训练的芯片中拥有领先地位。在其他模式的计算领域中，竞争仍在继续。

当这些硬件公司之间经历了竞争洗牌之后，将会有一种新型的芯片保持坚挺：这种芯片会在绝大多数软件框架上拥有更好的性能，而当软件通吃世界的同时，人工智能技术会迅速通吃所有的软件。这个推理链条可以简而言之为：

图形与张量处理器正在通吃线性代数操作
线性代数正在通吃深度学习
深度学习正在通吃机器学习
机器学习正在通吃人工智能
人工智能正在通吃软件
软件正在通吃世界

即使是C端公司(以消费者为目标客户群)的公司也正在探索这个空间。他们没有明确销售芯片的意向，他们的目标是改进最终产品。举例来说，特斯拉正在为实现Autopilot的无人值守可靠性而设计AI芯片。苹果已经在iPhone X中推出了专门用于面部识别的专用芯片。微软Azure在它们的机器学习工作流中使用FPGA芯片. Google在AlphaGo、街景地图产品(Street View) 和其他许多应用中使用了TPU。这些公司都没有公开宣布出售芯片的意图，但都已经在使用芯片来改进其所研发的应用。

伴随着计算行业的巨大变化，中国正向这一领域注入数百万美元的资金，而且是从最高层政府级别来理解这种结构性转变。为了让中国在半导体业务上获得优势，AI芯片是中国政府定义的八大“关键通用技术”之一，对国家AI战略至关重要(这里可以找到原文)。目前中国正在制造AI芯片的公司包括：比特大陆(Bitmain)，寒武纪科技(Cambricon)，深鉴科技(DeePhi) ，地平线机器人技术(Horizon Robotics) 和商汤科技(SenseTime)，其中许多公司估值超过10亿美元。

美国和中国都在大力投资这个新的计算技术栈。 8月份，中国国家开发投资公司（中国政府拥有的一项基金）对位于北京的寒武纪科技公司领投了1亿美元。寒武纪科技和比特大陆在过去两个月都发布了新芯片，并且两者都可以直接与英伟达发布的产品竞争。中国发改委在刚刚过去的10月份不遗余力地发起相关的研究提案中，一再要求发展高性能AI芯片。

目前，美国计算机行业暂时处于世界领先地位，以英伟达，英特尔和高通为代表。互联网巨头谷歌宣布，将TPU作为谷歌云平台的一部分出租。同期涌现出了一大批美国初创公司，每一家公司的目标都是成为下一个计算硬件巨头，这其中包括：AIMotive，BrainChip，Cerebras，Deep Vision，Graphcore（英国，美国投资），Groq，Mythic，Remicro，ThinCI，Unisound和Wave Computing。

其中一些公司专注于性能功耗比，一些公司单纯专注于提高计算能力，或者称为『每秒执行的代数运算』，而另一些则专注于构建丰富的计算库生态系统。究竟这些中美公司中的哪一家能够在新的计算栈中胜出，保持摩尔定律的活力，现在仍不明朗；但可以确信的是，我们构建软件和硬件的方式正在急剧变化，人工智能野火燎原，带领我们走向未来。

This article originally appeared in English: "The artificial intelligence computing stack".

Reza Zadeh

Reza Bosagh Zadeh 是Matroid的创始人、首席执行官，斯坦福大学的兼职教授，并在斯坦福提供两门博士级别课程的教学：分布式算法与优化，以及离散数学与算法。他的工作集中在机器学习、分布式计算和离散应用数学上。他曾获得的奖项包括KDD最佳论文奖和Gene Golub杰出论文奖。 Reza曾担任微软和Databricks的技术顾问委员会成员。他是Apache Spark中线性代数包的初始创建者。通过Apache Spark，Reza的工作被整合到工业和学术计算集群环境中。 Reza在在Gunnar Carlsson的指导下，获得了斯坦福大学的计算数学博士学位。他的一部分工作是推出了Twitter使用的第一个机器学习算法产品，『Who-to-follow系统』（为用户推荐应该关注的其他用户）。

Technology stack (source: Pixabay)

Reza Zadeh

为什么Java、Python会进入程序员最怕编程语言榜单

2020年技术领导人需要关注的5大关键领域

无服务器计算中的两个缺失链条：有状态计算和放置位置控制

在企业里管理机器学习：来自银行和医疗行业的经验