我们雷达上看到的7个数据趋势
从基础设施到模型训练工具,Ben Lorica着眼于数据的未来发展方向。
编者注:查看2019年6月18日至21日在北京举行的AI会议其中涵盖了本文中讨论的主题和关键问题。

无论您是商业领袖还是从业者,这都是值得提前几个月关注的重要数据趋势。

越来越注重建立数据文化,组织和培训

在最近的O’Reilly调查中 ,我们发现技能差距仍然是阻碍采纳机器学习方案的关键挑战之一。 对数据技能的需求(“21世纪最性感的工作”)并未消散。 LinkedIn最近发现,对美国数据科学家的需求“图表显示不下”,我们的调查表明,对数据科学家和数据工程师的需求强劲,这不仅发生在美国,在全球范围内同样如此。

由于现在技能的平均保质期不到五年,而且替换员工的成本估计在职位工资的六到九个月之间,因此技术领导者要保留和提升而不是更换员工的压力越来越大。为了使数据项目(如机器学习算法实现)保持正轨。 我们还看到针对高管和决策者的更多培训计划,他们需要了解这些新ML技术如何影响他们当前的运营和产品。

除了缩小技能差距的投资外,公司还开始为其数据科学项目制定流程,例如创建汇聚能力、分享最佳实践的卓越分析中心。 一些公司也在积极维护一组ML的实际用例和使用机会。

作为数据基础架构的云服务

云平台将继续吸引需要投资数据基础架构的公司:云平台不仅已经改进了基础技术和托管服务,而且越来越多的软件供应商和流行的开源数据项目确保他们的产品是易于上云的。 根据O’Reilly最近的一项调查,85%的受访者表示他们已经在云中拥有了一些数据基础架构,而针对IT主管的其他调查显示,许多人都计划增加对SaaS和云工具的投资。 数据工程师和数据科学家开始使用新的云技术,如无服务器(serverless),以完成他们的一些任务。

持续投资(新兴)数据技术

对于大多数公司而言,通向机器学习(ML)的道路涉及更简单的分析应用。 这是一个好消息,因为ML需要数据,而ML之前的许多更简单的分析工具已经需要数据基础设施存在。 对ML兴趣的日益增长将促使公司继续投资扩展ML提案所需的基础数据技术。 这包括数据提取、集成、存储、数据处理以及数据准备/清理等项目。

用于安全和隐私保护分析的工具

公司将继续投资于数据安全和隐私的工具,但我们预计会看到更多关注保护隐私的分析工具,这是一个研究人员和初创公司在积极参与的领域。 组织将开始识别和管理在产品和服务中使用机器学习所带来的风险,例如安全性和隐私性,偏见,安全性和缺乏透明度。

在企业中持续使用机器学习

早期迹象表明,许多组织正在将他们最初的机器学习项目(和投资)正确地聚焦在真实用例上,这些用例可以改善他们的关键任务分析项目。 例如, 金融服务公司正在投资ML进行风险分析,电信公司正在将AI应用于服务运营,汽车公司正在将其最初的ML实施重点放在制造业中。这也体现在机器学习专用工具的出现上,包括数据科学平台、数据血缘关系、元数据管理和分析、数据治理和模型生命周期管理。

新兴的物联网技术

几年前,大多数物联网(IoT)的例子涉及智能城市和智能政府。 但云平台,廉价传感器和机器学习的兴起使物联网有望在工业中卷土重来。 我们仍然会听到市政和公共部门的应用,但还有其他有趣的用例涉及封闭系统(工厂,建筑物,家庭)以及企业和消费者应用(边缘计算)。

数据科学和数据中的自动化

随着机器学习和分析的使用变得越来越广泛,我们需要能够使数据科学家和数据工程师的能力可扩展的工具,以便他们能够解决更多问题并维护更多系统。 这将为数据科学涉及的许多阶段带来更多自动化工具,包括数据准备、特征工程、模型选择和超参数调整,以及数据工程和数据操作。 已经有一些机器学习的早期应用,旨在实现数据科学,软件开发和IT操作任务的部分自动化。

Ben Lorica是O'Reilly Media, Inc. 的首席数据科学家,也是Strata数据会议和人工智能会议的日程总监。 他在各种场景中应用了商业智能,数据挖掘,机器学习和统计分析,这些场景包括:直销,消费者和市场研究,精准广告,文本挖掘和金融工程。 他的背景涵盖了投资管理公司,互联网创业公司和金融服务公司。

望远镜俯瞰海洋(来源:Pixabay上的Cocoparisienne