学习数据科学并没有什么神秘之处
专业数据科学家的5大首要习惯
编者注:对于向往“独角兽”技能的人士,欢迎在2016年9月27日(星期二)参加纽约Strata + Hadoop World大会,跟随Jerry Overton学习“实用数据科学:设计数据驱动的业务提升的最佳实践,使之成为现实从而推动企业的变革”的教程。在课程里可以学习如何构建和执行数据战略、如何编写算法以及如何在企业级别上进行实验。

更多内容可以参考Strata北京2017的相关议题

有些人可以想出用数据来提升企业业务的方法。这些人可以解释这些方法并使之变为现实,从而影响他们机构的变革。尽管他们的工作是编写和修改代码,但他们是可以(或至少是努力的)从容地跟主管们对话。我们有时称他们为“独角兽”,这是因为他们拥有的综合技能可以说是神秘的、神奇的…和难以想象的。

但是我不认为碰到一些希望自己的工作对人们有确实影响的人是一件不寻常的事。我也不认为学习数据科学技能有什么神秘之处。你可以在这个15小时的讲座和视频中了解机器学习的基础知识。你可以通过20个小时(为期一个月,每天45分钟)的专注的强化训练变得对大部分机器学习技能有相当的了解。

所以一个“独角兽”甚至是专业数据科学家基本上是可以被培训出来的。虽然学习所有的相关技能是很难的,但是也非常简洁明。在O’Reilly的伙伴帮助下,我们在纽约Strata + Hadoop World大会上为那些向往学习“独角兽”的技能的人设计了一个教程“实用数据科学:设计数据驱动的业务提升的最佳实践,并使之成为现实从而推动企业的变革”。本教程的宗旨是帮助你通过采纳以下最优秀的习惯,来让你在通往专业数据科学家的道路上少走弯路。

5. 放弃技术栈思维

数据科学中使用的工具和技术通常被称为一个技术栈。技术栈是一个问题,因为它会使你被技术问题而不是业务问题所激励。当你关注于一个技术栈时,你会问类似这样的问题“这个工具可以跟那个工具相连吗?”或者“我需要什么样的硬件设备来安装这个产品?”。这些都是重要的问题,但是它们不是能够激励一个专业数据科学家的问题。

数据科学领域的专业人员倾向于将工具和技术看作是一个有洞察力的应用程序的一部分而不是一个技术栈。专注于构建一个应用程序会迫使你基于应用程序需要产生的洞察来选择技术组件。基于应用程序的思维,你会问类似这样的问题“我需要做什么来发现一个新见解?”和“这个技术是否会让我更接近我的业务目标?”。

iml-blog1-d736ba6f2fc404dae518a3eb79451cb2

图1 数据科学工具和技术是一个有洞察力的应用程序的组件,而不是一个技术栈。图片来源:Jerry Overton

在纽约Strata + Hadoop World大会的课程中,我会教授从技术栈思维转向有洞察力的应用程序思维的简单策略。

4. 保证数据的供给

数据科学故事通常是以它们实际发生的相反顺序来被讲述的。在写得很好的故事中,作者会以一个重要的问题开头,引导你通过收集数据来回答问题,描述实验步骤,展示最终结论。但在真正的数据科学实践中,故事通常是在有人查看已有数据并提出问题开始的:“嘿,我想知道我们是否可以利用这些数据做一些很酷的事情呢”?这个问题带来了变革,进一步带来了构建有用的事情,以及带来寻找可能的受益人。大部分工作是致力于弥合发现的新见解和利益相关者的需求之间的差距。但是当讲述故事的时候,读者经历的是从利益相关者的需求到新见解的发现的平滑过程。

你提出的问题通常是你可以访问足够的数据来回答的问题。真正的数据科学通常需要一个健全的可自由裁量数据的存储系统。在本教程中,我会介绍构建和使用数据通道来确保你始终有足够的数据来做一些有用的事情。

3.有一个策略

数据策略常会与数据治理混淆。当我想到策略时我就会想起国际象棋。想要玩国际象棋你必须知道游戏规则,但如果想要赢,你必须有一个策略。你必须知道“D2的卒可以移动到D3,除非在D3有阻碍或者这个移动会使国王暴露而被直接攻击”这个规则。但是仅知道这个规则并不能帮助我走出致胜的一步。我真正需要的模式是能帮助我把棋子放在更好的位置以赢得比赛的模式:“如果我可以让我的車和后在棋盘的中间连在一起,那么我就可以迫使对手的国王陷入一个角落的陷阱里”。

iml-blog2-5a4bd92dd023088c67cdd95cec5131ad

图2 一个数据策略图。数据策略与数据治理不同。你需要一个策略图来执行数据策略。 图片来源:Jerry Overton

国际象棋的这个经验也适用于利用数据来赢得比赛。专业的数据科学家明白,要赢得比赛必须有一个策略;要建立一个策略必须要有一个策略图。在本教程中我们会介绍如何根据最重要的业务问题来构建策略图、建立数据策略以及执行基于应用程序思维的策略。

2. 黑客

这里的黑客当然不是指从事破坏性或者非法的活动,我是指拼凑出有用的解决方案(的能力)。专业的数据科学家通常需要快速构建解决方案。虽然工具可以使你更有效率,但是仅仅工具本身并不会在你需要时带来高效。

想要达到专业数据科学家的水平,你必须掌握黑客的艺术。你需要善于运用已有资源来产生新的、最小可行的数据产品。在纽约我们会介绍一些能将数据产品组合在一起,并构建你能理解的、适合目标的解决方案的技术。

1. 实验

对于实验,我不是指简单尝试不同的事情然后看看会发生什么。我的意思是用科学方法指导的更正式的实验。还记得你在小学科学课上做的那些实验、写的那些报告和在课堂上做的那些演讲么?对,就像那样。

进行实验并评估结果是数据科学家发挥影响力的最有效的方法之一。我发现在企业里,好的故事和宏图并不足以说服他人来采用新的方法。我发现能强大到足以影响变革的唯一方法就是一个成功的案例。很少有人愿意尝试新的方法除非它被证明是成功的。你没法证明一种方法的成功除非你让人们来尝试它。走出这种恶性循环的方法就是进行一系列的小实验。

iml-blog3-3c4a07e17de8dd2f99fe18cc937c3aad

图3. 小而持续性的实验是一个数据科学家影响变革的最有效的方法之一。图片来源:Jerry Overton

在纽约Strata + Hadoop World大会的教程中,我们还会学习在非常短的冲刺阶段进行实验的技术,这会迫使我们专注于发现新见解并在小而有意义的批次中来提升企业。

我们正处于大数据领域的一个新阶段的开端。这一阶段与大规模数据的获取和存储的技术细节关系不大,而与发现有影响力的可扩展的新见解更相关。能适应和学会让数据得到充分利用的机构将会一如既往地超越同行。能够构思数据驱动的业务提升,使它们变为现实并驱动变革的人才是企业最需要的。我不知道有多少人真正有兴趣接受这个挑战,但我真的期待遇到他们。

Jerry Overton

Jerry Overton是CSC的数据科学家和杰出工程师(CSC是下一代IT解决方案的全球领导者)。Jerry是CSC高级分析研究的负责人,也是其高级分析实验室的创始人。在他的博客“做数据科学”中,Jerry分享了他在数据科学领域开拓研究的宝贵经验。

Fish Magic, 1925. (source: Google Art Project on Wikimedia Commons).