推断时代的数据流动性

概率计算带来了太多的希望，但这一切可能被数据的零和博弈所抑制。

Roger Chen, 2017年9月22日

编者注：这篇文章最初发布在Roger Chen的博客上，经许可在这里重新出版。
敬请关注2018年4月10-13日人工智能北京大会。

在计算的进化史上，现在一个特殊的时刻。大数据、机器学习和人工智能等常用术语已经成为信息处理中一个底层范式转变的流行描述符。虽然传统的基于规则的计算并没有消失，但一个新的计算范式正围绕着概率推断出现。在这里，数字化的推断是从样本数据中学习而不是用布尔逻辑硬编码实现。这一转变意义重大，以至于一个新的计算技术栈正在围绕它形成。其中的重点是数据工程、算法开发，甚至是针对数据中心和边缘设备上的并行计算工作负载所优化的新颖的硬件设计。

关于概率推断的一个有趣的事情是，当模型运行良好时，它们在大多数情况下可能是正确的，但总会在某些时候出错。从数学的角度来看，这是因为这些模型采用数值方法来逼近问题，而不是分析问题。也就是说，它们从具有一定统计意义的数据(人类参与的各种层次)中学习模式，但对与这些模式相关的任何物理层面的意义（不管是数学定理、推测还是其他）都不太了解。不过，这也正是概率推断如此强大的原因。许多现实世界的系统都是多变量的、复杂的、甚至是随机的。分析性数学模型并不存在，而且很难被开发出来。与此同时，分析性模型的相对物——那些物理知识无知的、依赖于浮点运算的以及经常只是暴力的机器学习模型——却可以发展出演绎的能力。这些能力并不会很好地遵循任何已知的规则，但几乎总是能得到正确的答案。

这是令人兴奋的，因为它意味着即使没有完全理解底层的物理知识，我们也可以在软件强大的功能中复制诸如感知、计划和决策这样的（人类的能力）。事实上，研究学习模型的输入和输出甚至可以帮助我们开发一些在生物、化学、环境科学等复杂系统中缺失的物理模型。当看到这些能力的时候，难怪学术界和实业家都在争先恐后地应用人工智能。然而，这个即将到来的推断时代带来了令人兴奋的希望，却也有着无可争辩的致命弱点。在这个计算范式中，运行软件应用程序需要的数据和它需要的内存和微处理器一样多。数据作为一个计算组件，成为和组成实际计算机的物理部件一样的核心部件。突然间，供应和价值链的概念不仅适用于实物商品，也适用于数据等数字资产。不幸的是，围绕数据的经济生态系统在很大程度上仍然不发达，没有被无缝地包装和运输。数据产品常常停留在原始和停滞的状态。

1-colored-pearls-on-spoons-crop-99ff0fce96888586debfeaa6df03efd8

图1. 口味是一个特别有趣的推断问题。在高层次上，对于一个人喜欢或不喜欢什么菜进行规则编程是很简单的。但是怎么去判断由不同菜谱做出来的同一道菜一个人是否喜欢？然后再算上这个人喜欢的所有菜？是有可能把食物分解成分子数据，从而理解什么成分是最美味的，但很难想象一种大而全的理论能把所有的口味提炼成纯粹的公式。这种情况就是统计学、深度神经网络和推断模式能够发光的地方，（因为）它提供了足够的数据来训练一个特定的人的美食偏好

数据的所属域

尽管通过互联网可以比以往更自由、更大规模地分发信息，但共享数据对于训练和运行机器学习模型的价值却与大多数互联网商业模式的发展背道而驰。可以理解的是，这本身并没有错。如果一家公司通过投资建立有价值的数据集可以帮助其产品或服务与众不同，那么它不想去分享数据的动机就是让数据不被竞争对手获取。但是与此同时，数据的网络效应则是一种特别强大的业务和技术策略。当我们从一个更广的视角，而不是把目光聚焦在单个公司的视角和它的特定利益时，就会开始看到打破数据孤岛让数据为公众所用能带来的几个行业层面的好处。下面列出了一些。

提升效率

许多冗余数据集不必要地被创建出来，或是因为并不事先知道它们的存在，或是因为无法访问。降低数据冗余所带来的成本和时间的节省都是巨大的。

可重现

有时，故意重复进行数据收集是有好处的，因为通过重现可以保证数据的质量。然而，即使在这种情况下，数据的透明性和共享也很必要，因为需要对独立收集的数据集进行比较。

乘法效应

对于像识别猫这样的狭窄应用，数据的价值会很快饱和。但是对于像基因学或纽约市周边行车信息这样的大型信息空间来说，数据的价值将在相当长一段时间内随着数据相互间的化合而持续存在。由于开源算法的文化已经广泛应用，数据联盟会随着开放模型与开放数据的相结合而产生乘法效应。

释放新发现

许多计算问题的成功地解决不仅是要数据，还需要能达到临界量的数据。一般通过数据聚合或众包就能很快地获得这些数据。不同层次的临界量可以释放出不同层次的新发现，我们甚至事先不知道这些层次是什么。

来自小玩家的巨大创新

规模经济能够更有效地帮助大型组织收集数据，而较小的玩家经常处于边缘，发现他们的创新想法匮乏数据。为了帮助缩小数据不平等的差距，需要给小公司更多的新工具，这样他们的创新就有更好的机会进入市场。

这里主要关心的不是所有数据都应该完全参与联盟。专有数据总是会有，因为信息不对称提供了强大的战略优势。事实上，垄断数据的所有权有时也会促进创新，因为它赋予了创新者足够的安全感去投资那些需要长时间才能实现的项目。另一方面，过量的数据存在于不同的所属域中，当它们能被汇集并可访问时，就可以创建一个数据共同体，帮助信息密集型行业中的每个人加速进步。这些数据集自己通常不会为所有者带来什么价值，但把它们聚合起来就能产生更大的价值，为每个人提供帮助。形成数据共同体是必要的，但是还不够，企业需要更多的数据和工作才能使其产品具有竞争力。因此，试图垄断数据共同体的等级竞争似乎相当于一场零和游戏，而这样做的资源可能会被更好地用于其他地方。相反，随着机器学习在各个行业中扩散，共享某些类型的数据可以为每个人的进步打下坚实的基础。随着数据变得比以往任何时候都更重要，因此必须创建跨组织（由企业、大学甚至是民族国家所定义的）边界的数据流动。

2-data-commons-f602bd88a7a47c53f4a91262fd306f47

图2. 囤积通用数据的竞争可能导致投资的浪费，以及造成所有行业竞争者处于不稳定的基础上。相反地，建立某种程度的数据共享可以为整个行业创造一个强有力的立足点，它带来了采用机器学习的机遇。企业仍然需要通过在数据共同体上开发专有工具和知识来进行竞争，但是他们这样做的速度会快得多，同时也促进了数据的合作性竞争

数据交换的模式

为集体利益共享数据远非一个新奇的概念。例如，在开放科学和开放政府中，要求提高信息透明度的呼声由来已久。尽管如此，出于对竞争对手的怀疑和各自的小算盘，工业界所显示出的主动性还是很有限的。然而，当工业市场扩展到大众人群，而有远见的利他主义则不然。由于市场是根据供求关系运作的，市场驱动的激励机制很可能需要扎根于广泛采用数据共享，因为它正努力将机器学习能力纳入其中。在这里，我们需要探索一些数据交换的模型，来找到设计一个激励共享的工业生态系统的方法。

一种理解数据共享的方法是网络结构。其中节点表示数据集或原料库。从这个角度来看，最好的定义数据共享网络的健壮性的参数是它的延迟和在线时间。在线时间对应于数据节点的可见性和可访问性。当然，在诸如持续学习的应用中，实时数据共享是至关重要的，那么带宽造成的延迟就会很重要。但是在这里，我们只考虑批量学习应用的场景，即获取训练数据的延迟更为重要。使用此框架可以帮助我们可视化三种类型的数据交换模式在不同原则下的属性和差异：开放数据、数据经纪人和数据合作。

3-data-exchange-models-f4c521a8a27ef64209f1712566585035

图3. 由于缺乏市场激励机制，这使得开放数据这个模型难以被大规模使用。而且这种模式尤其容易出现数据异质性的问题。数据经纪人通过收集和销售数据获得收益，这将带来数据规模的增大。在网络里会反映在节点尺寸更大和更多的数据流动性。但是只有客户和合作伙伴用他们的钱包才能打开付费墙(蓝色的圆圈)。数据合作最能协调经济利益、数据获取和共享的工作，但需要最大程度的信任和解决冷启动的挑战

开放数据模式

公开数据的思想是值得赞扬的，而且这些想法的实现已经产生了巨大的成果，比如Allen Institute正在进行的Allen脑图谱（Allen Brain Atlas）研究。如果组织机构公开的数据成功地提供了市场可用性，并很好地维护了托管数据的基础设施，那么这些公开的数据的可见性和可访问性很高的。但是由于数据的异质性，有效地将不同组织机构的数据整合在一起会存在很大的延迟。这一点对所有的数据交换模型都具有挑战性，但在开放数据模式中尤其明显。因为开放数据的初始意愿往往是来自底层的，而没有强大的来自高层的关于如何整理这些数据的指导和推动。但这个问题是可以解决的。例如，政府机构可以利用资金作为实施标准的杠杆。然而，这并不能解决更大的挑战。当数据的规模越来越大，生成数据、构造数据集、并为公共使用提供支持需要大量的工作和资金。虽然一些令人钦佩的人受公开数据的感召而承担了这一责任，但他们只是少数。即使理解并同意数据共享的价值，大多数想要成为数据贡献者的人也不会承担这些额外的工作。最终，就需要有更多的激励（来促进数据流动）。

数据经纪人模式

一种明显的激励方式是引入金钱奖励。将数据货币化具有鼓励商业化数据收集和销售以获取利润的自然效果。由于该业务模型与数据整合非常吻合，因此相比开放数据项目，数据经纪人模式内在地解决了海量数据的规模问题，同时业务模式还是持续的，因为数据经纪人会很积极地去推销他们的产品。不过虽然数据的可见性可能很高，但实际的数据可访问性是隐藏在付费墙之后的。结果就是数据可以在网络上快速移动，但仅限于付费用户和合作伙伴之内。尽管如此，数据经纪公司通过为终端应用提供数据主干网，已经为现代金融和电子商务业务提供了极有用和有效的驱动力。

不过数据经纪模式也面临着一些限制，特别是与它们处理的数据类型有关。也就是说，由于花费较多，高收购成本的数据对于数据经纪人来说并不那么容易接受。例如，尽管增加医疗数据的共享和交换是毫无疑问得非常有价值，但与从能从网上免费获取大量的消费者和金融数据相比，获得病人同意的过程很明显是过于昂贵的。因此，数据经纪人对医疗保健和其他高数据获取成本(DAC)的行业一般都避而远之，这就导致了这些数据的共享很差。思考一下高DAC(因为数据是由运行实际物理实验产生的)的医药、化学和材料等有重要的科学企业的领域。这些领域正是机器学习的推断科学能够带来巨大进步的领域。但由于缺乏数据流动性，它们在争相采用机器学习技术时处于非常不利的地位。在数据所有权严重分散的地区，数据经纪模式的效果最好。但它很难在数据垄断行业行得通，因为这些行业是有非常高的数据垄断所带来的优势和非常少的分享数据的激励。

数据合作模式

数据合作是一种成员模式，它在协调利益一致方面具有强大的优势。在理想情况下，由于成员集体受益于合作，这吸引了新成员的加入，从而进一步扩大了成员的集体利益，由此形成了良性循环。合作(甚至是合作性竞争)的好处是非常强大的。例如，合作的成员可以形成数据的标准，以帮助应对整合异构数据的挑战。同时数据流动性甚至可能高于经纪人模式，因为合作成员可能比心思各异的合伙人更愿意透明地协调数据交换。也许合作模式最明显的优势在于协调一致地共同投资于数据生成和获取的能力。这为解决如上所述的高DAC、低数据流动性行业所面临的挑战提供了一个关键的杠杆。合作社可以集体决定哪些数据更重要并集中资源来收集，从而降低获取这些数据的工作量、成本和重复劳动。

像半导体研究公司(SRC)这样有影响力的行业协会提供了一个例子，展示了这种动态的数据合作是如何运作的。SRC是成功的合作性竞争的一个超级好的例子，它是由合作伙伴和竞争对手围绕着半导体行业价值链组成的。每年，各成员集体制定研发重点领域，以应对行业面临的最关键的技术挑战。SRC会资助其中的一些项目，并促进成员公司之间的知识转移。当取得突破性进展的时候，研究结果会按协议被共享，并且认为这些技术是先于竞争的。也就是说，技术的发展对于行业中的每个人来说都是一个共同的福利，而竞争最终应该集中在产品的供应和差异化上。在软件世界中，Linux基金会提供了另一个有意义的例子。在数据世界里，这种“把饼做大”的思考方法将会改变整个行业，但迄今为止还尚未出现。当前数据合作所面临的主要挑战是冷启动问题。在企业有意愿贡献有价值的数据之前，必须建立信任。实际上看到别人分享数据是建立信任的好方法。

数据的重要性将会继续放大，有时会非常强烈。伴随着企业搞清楚如何从数据中获取价值，他们对隐私和安全方面的担忧同时也会增加。我预计很快就会看到许多创新的解决方案来解决围绕数据所有权和交易所产生的挑战。然而，我们不应该预先假定这些问题会在无需思考和工作的情况下自行解决。有太多的可能我们会把这件事做错。新出现的概率计算范式对人类的进步和新发现带来了太多的希望，但这一切可能被数据的零和博弈所抑制。

This article originally appeared in English: "Data liquidity in the age of inference".

Roger Chen

Roger Chen正在创建一家新的风投公司。他也是O'Reilly 人工智能大会的联合主席之一。在此之前，他曾是O'Reilly AlphaTech Ventures (OATV)的合伙人。在OATV，他投资早期的初创公司，并主要从数据、机器学习和机器人技术领域帮助这些公司。Roger有一段深刻的、有实践经验的技术历史。在从事风险投资之前，他曾是一名工程师和科学家。他在加州大学伯克利分校(UC Berkeley)以博士研究员的身份进行新的纳米技术的研究，并曾在Oracle、EMC和Vicor担任工程师。他持有波士顿大学的电气工程专业的学士学位和加州大学伯克利分校的电气工程专业博士学位。

Water ripples (source: Blazing Firebug via Pixabay)

数据的所属域

Roger Chen

为什么Java、Python会进入程序员最怕编程语言榜单

2020年技术领导人需要关注的5大关键领域

无服务器计算中的两个缺失链条：有状态计算和放置位置控制

在企业里管理机器学习：来自银行和医疗行业的经验