已改进的工具生态系统正在助推人工智能落地

我们现在正处在人工智能技术的落地阶段

Ben Lorica, 2019年6月11日

编者注：想把当前大部分的人工智能技术和解决方案运用到你的业务中？抓紧注册2019年9月9日到12日的O'Reilly人工智能大会圣何塞站，了解如何利用人工智能到你当前的工作中。

在这篇文章中我分享了Roger Chen和我在2019年人工智能大会纽约站上发表的主题演讲中的幻灯片和备注。在这个简短的总结中，我重点介绍我们针对企业中人工智能落地这一主题的调查问卷的结果，并介绍了近期人工智能的新趋势。在过去的十年中，人工智能和机器学习已经成为非常活跃的研究领域。在2018年arxiv.org 平均每天新上传大约100篇机器学习相关的论文。过去几年里所有的研究都表明，可以公平地讲我们现在已经进入了很多人工智能技术的落地阶段。企业开始将研究成果和和相应的实现转化为产品和服务。

商业行为和兴趣的一个早期标志就是专利申请的数量。我很幸运能够为世界知识产权局（WIPO）近期的一份研究报告做出贡献。该研究报告研究了人工智能和机器学习相关领域的全球专利申请的情况。他们的主要发现之一就是专利申请数量的迅速增长。事实上，专利申请与论文发表数量的比例表明专利申请的增长速度比论文的增速要高。

Figure1-99dc7a06b497d2ea4f65863eb84a31ae

图1. 2019年WIPO的研究表明，人工智能专利申请的增长速度超过了论文发表的增速。资料来源：Ben Lorica

如果查看更细的领域，WIPO研究发现，49％的人工智能相关专利（超过167000件）中提到了计算机视觉。此外，计算机视觉专利申请的数量以每年平均24％的速度增长，仅2016年就有21000多项相关专利被提交申请。

Figure2-673c031486c3f53dcdefc55595470de6

图2 2019 WIPO研究里按领域划分的专利申请的细节。资料来源：Ben Lorica

对于自然语言的研究人员来说2018年以来是非常富有成果的。每隔几个月就会出现新的深度学习模型，这些模型在许多不同的自然语言任务和基准中打破了原有的记录。

Figure3-f52d29cf440e6310da7e8994e52877a8

图3 近期自然语言处理模型领域的进步。资料来源：Ben Lorica

这些研究的大部分都是公开的，并给出了开源代码和预训练的模型。虽然人工智能和机器学习在文本中的应用并不新鲜，但其中一些模型的准确性引起了从业者和企业的兴趣。我们人工智能大会中一些最受欢迎的培训、教程和议题就是专注于文本和自然语言应用的。需要重点强调的是，根据你的应用或场景，你可能需要重新调优这些语言模型。

我们看到深度学习工具在被持续地改进。我们的调查显示TensorFlow和PyTorch仍然是最受欢迎的框架库。也出现了一些新的开源工具，如Ludwig和Analytics Zoo。它们主要面向希望开始使用深度学习的非专业人士。我们还看到来自像Weights＆Bias和Determined AI这样的创业公司开发出来的工具（信息披露：我是Determined AI的顾问），以及像Nauta这样的开源工具。这些工具专门为那些拥有不断扩张的深度学习工程师和数据科学家团队的公司而设计。这些工具可优化计算资源，自动化模型构建的各个阶段，并帮助用户跟踪和管理各种尝试。

我们调查了超过1300名受访者。其中的22％表示他们开始使用强化学习（RL），这是一种与近期有名的“自学习”系统相关的机器学习的形式。出现这个现象的原因有如下几点。我们开始看到更多可用于强化学习的开源的、专有的和SaaS版的工具。更重要的是，像Netflix这样的公司开始分享强化学习的案例。同时，过去一年里有各种专注于强化学习的新工具上线。例如，Danny Lange和他在Unity的团队发布了一套工具，使研究人员和开发人员能够“快速有效地在新一代机器人、游戏和其他领域里测试新的人工智能算法。”

让我们更仔细地看看这些工具中的一个。在人工智能大会上，我们提供了一个关于开源计算框架Ray的培训教程。Ray是由加州大学伯克利分校RISE实验室的团队开发的。

Figure4_2-5f01acc70b7fb60410501b87f1bb9a5f

图4 使用RLlib进行强化学习是Ray流行的使用案例之一。资料来源：Ben Lorica

正如我在之前一篇博文中提到的，Ray已经在多个方面有了增长：用户数量、贡献者数量和使用案例数量。Ray对无状态和有状态计算的支持以及对调度的细粒度控制允许用户在其上实现各种服务和应用，其中就包括强化学习。Ray-RLlib之上的强化学习库为不同类型的强化学习训练提供了统一的API，并且它的所有算法都是分布式的。强化学习用户和研究人员已经从使用RLlib中受益。

硬件发展方面也有令人振奋的消息。去年我们开始跟踪一些创业公司，它们为在边缘设备和数据中心设备上进行训练和推断的人工智能专门设计硬件。我们已经看到专门用于推断的硬件（甚至还有Google云平台上专门用于训练的设备——TPU）。在今年下半年第三、四季度，我们预计会有更多的公司发布它们的硬件，这将大大加快训练和推断的速度，同时提高能源使用效率。鉴于我们正处于高度依赖经验的机器学习和人工智能的时期，可以在降低成本的同时大大加快训练时间的工具将能带来更多的实验进而导致可能的突破。

在我们的调查中发现超过60％的公司计划将部分IT预算投入人工智能。但投资水平取决于公司已经拥有的人工智能经验。正如在图5中所看到的那样，那些拥有成熟实践经验的企业计划将相当大一部分IT预算投入到人工智能中去。人工智能领导者和落后者之间的差距很可能会进一步扩大。

Figure5-831ed3fd0b3ec501fe68fa42ae08e533

图5 计划对人工智能的投入水平取决于企业的成熟度。资料来源：Ben Lorica

那么，是什么阻碍人工智能被采用？根据我们的调查，答案取决于公司的成熟度。

Figure6-a1c993a15e853380f881be0061bc2eea

图6 阻碍人工智能被采用的关键瓶颈。资料来源：Ben Lorica

那些刚开始涉足这个领域的人很难找到人工智能的应用案例或解释它的重要性。此外，我们离通用人工智能还很遥远。我们正处于这些技术必须通过精调和准确定位才能得到好的使用的阶段。另外，许多人工智能系统需要通过增强领域专家才能发挥它的作用。因此，这些技术需要在组织的各个层面进行培训，而不仅仅是技术团队。管理者必须了解当前人工智能技术的功能和局限性，并了解其他公司如何使用它。以机器人过程自动化（RPA）为例，这是企业的热门话题。真正最接近工作的人（“自下而上的方法”）才能够最好地识别RPA最适合的任务。

另一方面，那些拥有成熟人工智能实践的组织则面临着缺乏数据和熟练的技术人员的困难。让我们更仔细地看一下图7中的技能差距。

Figure7-32b524413998cb22b29d82febed10a77

图7 人工智能里的技能差距。资料来源：Ben Lorica

技能要求也取决于成熟程度。拥有更成熟的人工智能实践经验的公司在寻找应用案例方面遇到的麻烦更少，对数据科学家的需要也低。但是，对数据和基础设施工程师的需求跨越了不同的企业。重要的是要记住，今天的大部分人工智能任务仍然需要大量的训练数据和大量的计算资源来训练大型的模型。我最近写一篇文章，其中介绍了关于机器学习和人工智能想成功所需的必要的基础技术。

随着人工智能技术在企业内部被使用，我们需要更好的机器学习模型开发、治理和运维工具。我们已经开始看到可以自动化机器学习管道的多个阶段的工具。它们能帮助管理机器学习模型的开发过程，以及搜索可能的神经网络架构。鉴于机器学习和人工智能的热度，我们预见相关领域的工具将能够得到改善并被广泛采用。

Figure8-dc0ea9f7f11121ef26121d28ae8b563d

图8 自动化和模型开发工具正在越来越流行。资料来源：Ben Lorica

随着企业对人工智能的兴趣日益增加，现在是为机器学习开发工具的绝好时机。当我们询问受访者“您计划在未来12个月内将哪些工具纳入您的机器学习工作流程？”时，我们发现：

48%的受访者希望有模型可视化的工具。
43%的受访者需要自动化模型搜索和超参数调优的工具。

企业正在意识到机器学习和人工智能不仅仅是优化业务或统计指标这么简单。在过去的一年里，我试图在“风险管理”（这是许多企业已经熟悉的术语和实践领域）的框架下总结一些这方面需要考虑的事项。研究人员和企业已经开始发布工具和框架来解释他们用来开发“负责任的人工智能”的各种技术。当我们询问受访者 “您在机器学习模型构建和部署期间检查了哪些风险？” 时，我们发现：

45%受访者评估了模型的可说明性和可解释性。
41%受访者表示它们针对公平性和歧视进行了测试。
35%受访者检查了隐私方面。
34%的受访者查看了安全和可靠性的问题。
27%的受访者针对脆弱性进行了测试。

下面聊聊数据安全的话题。在人工智能时代，有些情况下数据的完整性与数据的安全性同样重要，因为人工智能系统高度依赖于训练用的数据。构建能够跟踪数据管理和血缘的基础架构非常重要，不仅是对于安全和质量保证审计而言，而且是对于遵守现有和将来的法规也是如此。

Figure9-e75480de3b7332157b93f4009cc23661

图9 人工智能时代的数据隐私和安全。资料来源：Ben Lorica

我们正处于机器学习和人工智能的落地阶段。过去十几年里已经产生了大量的研究成果，现在我们开始看到针对企业和开发人员的各种可获取的工具的出现。但我们仍处于人工智能落地的早期阶段，在工具方面的多个领域仍有很多工作要做。因此，许多初创公司、大企业和研究人员正在努力改进机器学习和人工智能的工具生态系统。在接下来的12个月中，我预计在简化机器学习开发、治理和运维等方面的工具将取得很多进展。

Ben Lorica

Ben Lorica是O’Reilly Media公司的首席数据科学家，同时也是Strata数据会议和O’Reilly人工智能会议的内容日程主管。他曾在多种场景下应用商业智能、数据挖掘、机器学习和统计分析技术，这些场景包括直销、消费者与市场研究、定向广告、文本挖掘和金融工程。他的背景包括在投资管理公司、互联网初创企业和金融服务公司就职。

Gears (source: Pixabay)

相关内容：

Ben Lorica

为什么Java、Python会进入程序员最怕编程语言榜单

2020年技术领导人需要关注的5大关键领域

无服务器计算中的两个缺失链条：有状态计算和放置位置控制

在企业里管理机器学习：来自银行和医疗行业的经验