大数据仍然是1%的游戏。 正如奥赖利(O'Reilly)的调查数据所表明的那样,这是15%。 根据调查,大多数企业(85%)仍未**AI和机器学习的代码。 仅有15%的“老练”企业在生产中运行模型已经超过五年。 重要的是,这些相同的公司往往将更多的时间和精力放在关键领域,例如模型偏差和数据隐私,而相对较新手仍在尝试找到“打开”按钮。

不幸的是,对于那些希望通过Google的AutoML之类的自动快捷方式或通过付费顾问来缩小数据科学差距的公司,答案似乎是正确完成数据科学需要时间。 没有捷径。

[在InfoWorld上深入学习机器学习: 11种必备的机器学习工具 掌握机器学习的13个框架揭秘了机器学习管道 •回顾: 6个机器学习云您应使用哪个Spark机器学习API? ]

精明的公司专注于数据的深度端

首先,需要注意的是,O'Reilly的调查数据来自一个自选群体:参加过O'Reilly事件或通过网络研讨会或其他方式与公司进行过接触的人。 这样的人对数据科学抱有积极的兴趣,即使(如调查数据所示)大多数人并没有真正做很多事情。 但是,对于那些沉迷于大数据经验的人来说,这是一个巨大的人口统计,被称为“老练”的人拥有运行已超过五年的模型。

调查得出的一个有趣的数据点是这些人如何谈论自己。 具有丰富数据经验的公司称数据科学黑桃为数据科学黑桃。 如图所示,那些陷于1990年代“数据挖掘”思维方式的人更喜欢“分析师”。

为什么机器学习没有捷径奥赖利

大数据仍然是1%的游戏。 正如奥赖利(O'Reilly)的调查数据所表明的那样,这是15%。 根据调查,大多数企业(85%)仍未**AI和机器学习的代码。 仅有15%的“老练”企业在生产中运行模型已经超过五年。 重要的是,这些相同的公司往往将更多的时间和精力放在关键领域,例如模型偏差和数据隐私,而相对较新手仍在尝试找到“打开”按钮。

不幸的是,对于那些希望通过Google的AutoML之类的自动快捷方式或通过付费顾问来缩小数据科学差距的公司,答案似乎是正确完成数据科学需要时间。 没有捷径。

[在InfoWorld上深入学习机器学习: 11种必备的机器学习工具 掌握机器学习的13个框架揭秘了机器学习管道 •回顾: 6个机器学习云您应使用哪个Spark机器学习API? ]

精明的公司专注于数据的深度端

首先,需要注意的是,O'Reilly的调查数据来自一个自选群体:参加过O'Reilly事件或通过网络研讨会或其他方式与公司进行过接触的人。 这样的人对数据科学抱有积极的兴趣,即使(如调查数据所示)大多数人并没有真正做很多事情。 但是,对于那些沉迷于大数据经验的人来说,这是一个巨大的人口统计,被称为“老练”的人拥有运行已超过五年的模型。

调查得出的一个有趣的数据点是这些人如何谈论自己。 具有丰富数据经验的公司称数据科学黑桃为数据科学黑桃。 如图所示,那些陷于1990年代“数据挖掘”思维方式的人更喜欢“分析师”。

为什么机器学习没有捷径奥赖利

如图所示,无论公司选择称呼其数据专业人员如何,拥有AI和机器学习功能的企业越有经验,他们就越有可能依靠内部数据科学团队来构建他们的模型。

为什么机器学习没有捷径奥赖利

几乎没有人希望使用云机器学习服务(至少现在还没有),而只有不到两年生产经验的公司倾向于依靠外部顾问来构建他们的机器学习模型。 对于这样的公司来说,这似乎是一个机会,无需对人员进行投资即可获得数据科学的好处,但这是愚蠢的做法。

公司拥有的数据越复杂,其数据科学团队就越会建立模型评估关键指标以确保项目成功。 在所有公司中,产品经理倾向于定义项目成功指标(36%),其中还包括执行管理层(29%)和数据科学团队(21%)。

但是对于经验丰富的公司,虽然产品经理仍然获得最多的引用(34%),但数据科学的领导者(27%)与执行人员大致相等(28%)。

经验最少的公司倾向于寻求执行管理(占31%),而很少寻求数据科学方面的领导(占16%)。 但这不是问题,但事实上,这些数据科学团队最有能力弄清楚如何使用数据并衡量其成功。

常常是盲人带领盲人

依靠高管管理层来推动数据科学的发展让人们想到了一项调查调查显示高管称自己为数据驱动型,但随后却忽略了不支持因直觉而做出的决策的数据(62%的人承认这样做)。

缺乏精通大数据的企业似乎想对数据进行口头上的服务,但是他们不了解有效的数据科学的细微差别。 他们只是缺乏必要的经验来确保他们收集有意义的,公正的数据见解。

当Gartner的安德鲁·怀特Andrew White)谈论理解机器学习模型以及如何培养对结果的信任时,更精明的企业将掌握什么:

[使用AI]的新功能是AI能够重划界限-认为我们过于复杂且不常规的东西现在可以被AI利用。 与以往的技术相比,人工智能(可以兑现承诺)可以处理更复杂,更具认知性的工作。
如果将留给AI的自动化工作的结果说得通的话,那么这个新现实将无法生存。 如果新出现的黑匣子做出决策并改变了人类不了解的结果,那么这些人类很可能会关闭盒子。 因此,一定程度上了解决策非常重要。
但是,了解或解释决策与了解算法的工作原理完全不同。 即使算法将其中的许多内容组合到某种程度,我们甚至都无法证明该过程,但人类应该能够掌握输入,选择,权重和结果的原理。 如果结果和近似输入之间的差异太大,则对算法的信任很可能会失败,这只是人的本性。

不能以顾问的价格购买达到这种理解水平的服务。 它也无法在云中现成。 诸如Google的AutoML之类的工具旨在“使具有有限机器学习知识的开发人员能够训练针对其业务需求的高质量模型。” 这听起来不错,但是从数据科学中获得的很多好处都需要具有数据科学经验。 这不仅仅是调整模型的问题,而是知道如何做到的,这源于经验的反复试验。

此外,正确进行数据科学需要一种文化心态,而这种文化心态又要有经验。 没有捷径。 实际上,这意味着那些在数据科学方面进行了早期投资的公司应该领先于那些没有这样做的公司,而这种竞争优势很可能会持续下去。

对于那些希望追赶的公司,Gartner分析师Svetlana Sicular的经典建议仍然正确:“公司应该向内看。 组织已经拥有比神秘数据科学家更了解自己数据的人。” 只要公司了解好的数据科学需要在企业中花费时间,并为这些人提供学习和发展的空间,他们就不需要捷径。

这个故事“为什么没有捷径来学习机器”最初由InfoWorld发布

From: https://www.idginsiderpro.com/article/3297063/why-there-are-no-shortcuts-to-machine-learning.html

相关文章: