【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

至顶网CIO与应用频道 01月22日编译：随着人们对大数据的预测和预期不断加速，企业数据团队发现自己正处于一个快速变革的领域，既受到各种可能性的鼓舞，又因为各种局限性受折磨。2018年，大数据将继续沿着这两条路线发展：提供更多提高了可访问性的选择，同时又让那些寻找所有复杂问题答案的企业感到沮丧。对于刚加入大数据热潮和已经充分涉足的企业，我们总结了：

四个值得兴奋的理由：

- 机器学习方法变得更容易获得了

- 数据不会短缺

- 大数据工具可以更有效地进入企业

- 基础设施上升到支持大数据的数量和速度

四个需要担心的理由：

- 必要的技能严重短缺

- 隐私问题变得可执行

- 数据互操作性仍然有限

- 安全缺陷威胁数据完整性

兴奋点：

机器学习方法变得更容易获得

生产就绪的机器学习工具和模型的兴起，将成为2018年大数据能让人们兴奋起来的原因之一。机器学习模型可以准确地识别数据流中的特定模式。在已经被数据淹没的环境中，这种能力提供了高价值和独特的优势，整个业界也作出了相应的回应。

数据科学家可以利用越来越多的开源机器学习框架，包括Google的TensorFlow、Apache MXNet、Facebook Caffe2和Microsoft Cognitive Toolkit等等。最重要的是，建立模型的任务变得从未如此简单。例如，AWS提供深度学习AMI（Amazon Machine Images），其中已经内置了机器学习框架，可在AWS云上使用。对于那些刚刚起步的人来说，Google的TensorFlow Playground可以帮助用户使用简单数据集和预先训练好的模型，更多地了解机器学习框架下的神经网络（图1）。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图1. TensorFlow Playground提供了一个交互式的沙箱，用于探索TensorFlow的基础。（来源：Google）

即使不深入研究机器学习算法的内部工作远离，开发人员也可以开始将这些技术应用于数据集。Google TensorFlow提供预先训练好的模型和示例，以及TensorFlow框架和针对如自然语言处理、音频识别和图像识别等应用流程。

对于更有经验的用户来说，使用机器学习会简单得多。由Facebook和微软推出的开放神经网络交换（ONNX）格式为在机器学习框架之间移动的模型提供了一个标准。除了这些公司对Caffee2和Cognitive Toolkit的早期支持之外，亚马逊最近还推出了一个开源的Python软件包，用于将ONNX模型导入Apache MXNet。

兴奋点：

数据不会短缺

随着企业完成他们的数字化转型，物联网等（图2）重要项目催生了很多新的数据源，因此数据科学家不会缺少数据的。受这些和其他来源的驱动，与大数据相关的每个参数都将继续迅速演变：数据量自然会随着来源的增加而呈现上升趋势；随着企业提高数据分解以降低粒度，数据速度将会增加；随着物联网应用上线，以及企业合作伙伴共享关键数据源，数据的多样性将会随之迅速增加。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图2. 更多的数据来源意味着数据量、速度和多样化的激增。（来源：Patrick Cheesman）

然而，随着企业在生产中使用更深层次的分析和机器学习模型，数据科学家的工作将因为可以得到中立数据集而受益，用于测试和优化数据处理链、机器学习模型的广泛类别、甚至是算法本身。幸运的是，数据科学家可以随时访问各种公共数据集。例如，AWS提供了对环境、生命科学、图像等公共数据集的免费访问。同样，Google提供了各种各样的BigQuery公共数据集，其中包括GitHub代码、NOAA天气数据等等。数据科学家还可以通过data.gov访问超过20万个美国政府开放的数据源。

兴奋点：

大数据工具可以更有效地进入企业

从Hadoop和MapReduce早期开始，大数据分析工具已经发展成为一系列广泛的工具和平台。2018年，这种趋势将持续下去，人们越来越频繁地将数据提炼成更有用的信息，并利用一系列开放源代码和专有软件包来跟上数据快速增长的步伐。

随着企业要应对更多的数据生产者和消费者，大数据需求甚至超越了功能强大的Hadoop分布式文件系统（HDFS）的功能。今天，企业面临着结构化和非结构化数据的混合，传统批处理、流分析和来自任意数量数据存储库的交互式查询等等这些复杂而混合的分析场景。大数据架构试图通过构建在（用于数据管理和计算的）高性能框架上的综合工具链来满足这些要求（图3）。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图3. NIST大数据参考架构，构建信息价值链的指南。（来源：NIST大数据公众工作组）

Apache Hadoop框架已经发展到包含大量解决大数据分析方面问题的工具，以及相关的Apache项目解决了更为复杂的需求。例如，Apache Spark补充了Hadoop以批处理为主导的MapReduce处理模型，提供了对数据流和交互式查询的实时分析。Apache Yarn提供了一个复杂的框架，其中包含资源管理器和作业调度程序，能够协调多个计算节点上的多个应用。因此，Apache Spark可以作为独立服务运行，也可以使用Yarn作为Hadoop集群上的Hadoop模块运行。

随着企业将不同来源的结构化数据和非结构化数据汇集到数据湖中，相同的做法被作为扩展大数据工具范围的基础。例如，Kylo开源平台建立在Apache框架之上，以解决相应更复杂的数据流和数据管理要求（图4）。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图4. Kylo旨在为数据湖提供开源平台。（来源：Teradata）

兴奋点：

基础设施上升到支持大数据的数量和速度

越来越多的数据、工具和支持平台，当然就意味着对合适的计算基础设施不断增长的需求，大数据工作者不会对2018年感到失望的。超大规模云服务提供商将继续扩大数据中心来满足这些需求，提供更多的集群和更快存储运行在更快的网络上。这也使更多的传统企业软件公司变成了硬件开发公司。例如，AWS使用自己的定制路由器，这些定制路由器使用基于Broadcom Tomahawk的专用ASIC来支持128个25 GbE通道。

在开放计算项目（OCP）的努力下，开源硬件在数据中心中不断获得推动力。 OCP在提高数据中心性能和效率方面的合作方式已经不仅仅是体现作为一个讨论用的公开论坛。参与者继续分享开放的规范。例如，微软在去年分享了Project Olympus服务器机架设计之后，向OCP社区提供了专注于平台安全的Project Cerebus规范。

随着基础架构的速度和容量的不断攀升，企业经常发现自己仍然要面对各种不同的Hado哦派配置等问题。有一个工作组一直在致力于简化这其中的流程。在Linux基金会的主导下，ODPi试图消除对于不同平台的多个Hadoop发行版的需求（图5）。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图5. ODPi试图简化Hadoop发行版。（来源：ODPi）

担心：

必要的技能严重短缺

大数据工具可使深度分析更容易获得，但仍然需要数据科学的坚实基础。不幸的是，数据科学家将在2018年保持供不应求的状态，开放职位与合格个人之间的差距将继续增长，这可能是阻碍大数据成功最令人担忧的挑战之一。

Burning Glass Technologies（BHEF）和IBM的一项研究显示，合格的数据科学家明显不足（图6）。更糟糕的是，现有数据科学家的数量增长可能远远没有达到大数据本身增长的预测水平。自动化技术将为传统数据科学任务（如数据清理和非结构化数据解耦）提供一些缓解措施，但是大数据的创新应用仍然与可用的大数据专家资源密切相关。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图6. 关键数据分析技能需求的增长速度远远超过所能供应的水平。（来源：IBM）

担心：

隐私问题变得可执行

欧盟一般数据保护条例（GDPR）自2018年5月25日起生效，适用于任何处理欧盟居民数据的企业组织。即使是在欧盟以外的公司也需要遵守GDPR，并且可能面临严重的违规处罚。对私人数据的严格管制和违规处罚，对于那些要在美国HIPAA安全规则下保护健康数据的公司来说并不陌生。即使非故意的违规行为也会导致罚款，故意忽视对健康数据的保护将要面临重大罚款和多年徒刑。此外，消费者日益关注的数据隐私重要性甚至超过了监管要求。

诸如金融行业这样的细分市场，多年来依靠数据脱敏（Data masking）技术来去除个人可识别的数据。利用这些技术，数据流过程中采取额外步骤，来提取敏感数据，将敏感数据转换为另一种字符串，并将这些数据混入数据集中以加载到目标数据库（图7），从而将其去个性化。数据脱敏技术可理想地确保数据集对于使用目标数据库的人类用户来说仍然有意义，因为诸如地址（例如151 W 34th St）的敏感数据被转换为一些安全但是有意义的字符串（诸如123 Hidden Street）。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图7. 传统的数据脱敏技术在数据流中插入额外的步骤。（来源：IBM）

GDPR要求企业使用类似的假名方法来隐去个人数据。如果没有数据科学家和隐私专家，公司将很难利用大数据工具来应用正确的方法组合。当个人担心他们的私人数据，并要求将这些私人数据从企业文件、数据库和数据池中删除的时候，这个问题就会变得更加复杂。特别是，如果个人资料保持不变，但数据转换和分析结果被埋没，这个问题就会变得几乎不可能。像Kantara Initiative的Consent Management Solutions Work Group这样的初期尝试，为处理这些问题提供了一个框架。

担心：

数据互操作性仍然有限

大数据概念（例如数据湖）旨在实现数据源的广泛混合。2018年，企业可能会因为通过合并多来源的数据而导致创造有用信息的能力受限而感到沮丧。

随着非结构化数据的增长，当企业在对比不同非结构化容器解析的数据时遇到了巨大的挑战，即使这些容器是来自于企业电子邮件流量这样相同的来源。在结构化数据中，语义问题常常由于模式和数据定义的性质而减少。

如果语义上等同的数据点与完全不同的上下文相关联（例如当用人体温度计和室外温度计测量温度时，温度的重要性），那么数据互操作性问题变得更为复杂。温度数据的上下文反映了明显不同的含义，需要一个统一的语义元数据框架来确定有用的结果组合（图8）。上下文敏感的解析和标记这一新机制，将有助于解决更现实的情况，但解决此问题的方法取决于是否有经验丰富的数据科学家，以及数据共享合作伙伴之间对数据语义和广义本体的一致性。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图8. 跨域应用（6）中有用的推理（7）需要一致的语义（2）和本体（4）。（来源：Murdock，Paul等，物联网的语义互操作性）

担心：

安全缺陷威胁数据完整性

与几乎所有的在线资产一样，数据安全在2018年仍将是一个值得关注的问题。这仍然是整个业界最关注的问题之一，这一点也不意外。在Forrester针对314位高级公司经理、IT经理和高级数据分析领导者的调查中，受访者提到了与存储和数据完整性相关的数据安全问题（图9）。虽然有个别细分的安全方案是已经有了的，但要组合成实用的解决方案，还需要把技术和实践精心组合起来。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

图9. Forrester调查发现，数据安全性仍然是企业管理人员最关心的问题。（来源：Rackspace）

在安全薄弱的环境中，对机器学习模型依赖的增加带来了额外的难度。犯罪分子通过向数据源中加入恶意数据流，入侵那些利用新数据趋势来进行训练的模型。最糟糕的是，网络犯罪分子可以使用微妙的“数据中毒”来将企业分析转向他们所选择的方向，从而在机器学习模型中创造出一种零日漏洞。不管怎样，数据中毒在单个的企业中是现实存在的威胁，如果企业之间共享数据的话可能性就更高了——例如汽车制造商将自己的物联网数据与交通基础设施合作伙伴共享的物联网数据结合起来。分布式账本技术被证明是维护这些数据集安全性的理想选择。在实践中，广泛分布的开放式分类账（例如区块链）固有的性能限制，可能会限制其在静态数据集、而不是动态数据流中的早期应用，尽管在基于更受限的分布式方法中，这种情况可能会有所改变。

人工智能赛博物理操作系统

AI-CPS OS

“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？
重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？
重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。
智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。
高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。
不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；
对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；
人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；
迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新

评估未来的知识和技能类型；
制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开

发过程中确定更加明晰的标准和最佳实践；
重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临

较高失业风险的人群；
开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

【大数据】大数据2018：4个值得兴奋和4个需要担心的理由

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”、“智能驾驶”；新模式：“财富空间”、“数据科学家”、“赛博物理”、“供应链金融”。

官方网站：AI-CPS.NET

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！