大数据时代滚滚袭来,认知决定布局,行动决定终局,尽早布局,收获未来。

大数据时代,数据资产被认为是“未来的黄金”,沉默已久的历史数据也开始被唤醒。大数据将在社会生产、流通、分配、消费活动以及经济运行机制等方面发挥着重要的作用。

但是,我们也要清楚的意识到,大数据也是有成本的,甚至会非常昂贵,这时,我们就要分析数据的成本和价值,然后做出取舍,做出合理方案,因为越旧的数据,对现今市场的利用价值,就越低。比如30年前,某个产品的市场销量和人群画像,对于今天的运营还有多大价值。所以,同样是1G的数据,30年前的数据价值,比今年就要低很多。关于大数据的成本问题,后面会单独专门来讲。

一文了解大数据,从算法、架构、应用到规划--童亚斋

 

我国大数据产业继续保持高速发展,大数据将深入渗透到各行各业。到2025年,我国产生的数据量将从2018年的约7.6ZB增至2025年的48.6ZB。与此同时,美国2018年的数据约为6.9ZB。到2025年,这个数字预计将达到30.6ZB,届时将超越美国,数据交易迎来战略机遇期。

下面将从大数据的应用场景,算法案例以及技术架构等三个方面进行介绍。

应用场景

大数据对各行各业的渗透,大大推动了社会生产和生活,未来必将产生重大而深远的影响。

金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。生物医学,大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,同时还可以帮助我们解读DNA,了解更多的生命奥秘。体育娱乐,大数据可以帮助我们训练球队,决定投拍哪种题材的影视作品,以及预测比赛结果。安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。个人生活, 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。

经典算法和场景

一文了解大数据,从算法、架构、应用到规划--童亚斋

1.探索性数据分析

数据分析的一般流程是:确定目标->获取数据源->数据探索->数据预处理->挖掘分析建模->模型效果评价。

数据的筛选、重组、结构化、预处理等都属于探索性数据分析的范畴。进行数据分析,要从数据的收集和预处理开始。但是大多数人往往忽视这一点,这是非常错误的看法。在数据分析项目中,数据的收集和预处理往往占据整个项目工作量的百分之七八十,正是这些简单的工作决定了整个项目的成败。

在机器学习/模式识别领域,有句经典的话,"Garbage in,Garbage out"。顾名思义,如果你的数据本身就有问题,那么无论多么牛X的模型,都无法输出令人满意的结果。数据的质量高低决定了数据分析的成功与否。好的数据满足时效性、准确性、客观性、全面性、结构性等多个条件。

2.相关分析

相关分析和回归分析是应用最广泛的算法。如流星雨推荐系统中的协同过滤算法、神经网络中的径向基函数、各种各样的聚类算法等,都借鉴了相关系数的计算方式及回归方程式的表达方式。

在这里给大家重点介绍一下比较流行的协同过滤算法。个性化推荐系统总是被应用在各类购物网站和新闻网站上,它可以推荐商品和广告,这其中绝大多数都是基于协同过滤算法做的推荐。

协同过滤的核心思想十分简洁,可以简单概括:假设根据历史分析得知用户甲喜欢的品牌,乙都喜欢。那么,如果某一天,用户甲购买了一件新商品,那么就可以把这个新商品推荐给乙。

但是,协同过滤算法也有它自身的局限性,分析师必须根据用户的不同意图,以及所处的不同场景为用户推荐不同的产品,这需要在一个系统中集合不同的算法,并了解业务的逻辑性。

一文了解大数据,从算法、架构、应用到规划--童亚斋

3.回归分析

回归分析是根据事物变化发展的前因后果进行科学预测的方法。在金融领域,回归分析仍然是最重要的一项分析方法,华尔街的数学家使用回归分析模型计算每日的股价变化,以及每种投资组合的盈利概率,许多经典金融模型都是用回归方程式写成的。

Logistic回归分析、线性回归分析和非线性回归分析并称基本回归分析模型。

Logistic回归分析可用于流感预测,谷歌就是基于这个算法,推出了“谷歌流感趋势”。谷歌地图利用人们对流感搜索的关键词直接预测流感爆发。谷歌认为倘若某个地方的人们突然疯狂搜素感冒、咳嗽、发烧等和流感相关的词汇,那么这个地方爆发流感的可能性就比较大。但是,后来也发现了这个算法的一些问题,还有很多影响预测的因素,比如最新的药品销量、人口流动、风力强弱、人口密度等都需要放进Logistic回归方程。

线性回归分析被广泛用于各行各业,比如在电商或者百货行业,主要用于预测产品销量进而调整库存,预测不同促销组合产生的盈利进而确定促销活动,预测广告策略的影响,给不同消费者评分,进而寻找最优价值的消费者。在销量的回归方程中引入了用户搜索次数、顾客评价、库存、服务态度、物流时间、折扣力度、广告宣传、购物体验等十几个变量。对于数据分析师来说,只有理解回归分析里重要参数的意义,了解如何使用数据转换、因子分析等辅助建立回归方程,才能得到具有识记意义的回归模型,并将其应用到实际生活中去。

4.降维分析

降维算法是随着近年来数据量爆炸性增长而逐渐为人们所重视的分析方法之一。降维分析算法的共同特点是将模型从较多的维度通过空间映射的方法变成较少的纬度,从而达到减少计算量或改善变量间关系的目的。

降维分析有很多算法,比如,粗糙集算法、因子分析、最优尺度分析等,这里重点介绍一下粗糙集算法。

粗糙集算法可以用于制定信贷政策和风控政策。好的风控部门可以帮助公司提升利润,维持国家经济正常发展。如何在将钱借贷出去的同时保证人家会还,这是需要重点考虑的问题。但银行在考察一个申请贷款的企业的时候,可能考虑很多方面,比如企业的类型、企业的财产状况、每个类型企业的平均历史还款情况,等等。

粗糙集算法中引入更多的条件属性可以使协调决策更多,但是过多的条件属性会拖累计算机的速度。通过计算每个属性的重要程度,可以帮助数据分析师遴选出最有用的属性,从而在计算精度和速度上折中。因此,粗糙集算法具有计算速度快、准确度高、结果易于理解等优点。

5.模式识别

计算机的发展和大数据时代的到来,促使人们自然而然地思考和如何利用大数据使计算机像人类一样进行模式识别工作。

一文了解大数据,从算法、架构、应用到规划--童亚斋

模式识别有很多算法,比如,图像分析(无人驾驶)、遗传算法(人力资源优化)、决策树分析(准确判断用户健康水平)、K均值聚类分析(通过为客户分类降低退货率)等。这里重点介绍决策书分析算法。

决策树是一种典型的分类方法,是如今最著名的模式识别算法之一。它能够从数据集中抽取有价值的规则,并广泛用于各种决策问题。

随着网络普及,人们购物、购票都可以在网上进行,就连健身都能够通过网络完成了。众所周知,每个人的身体素质不同,适合的健身方法也不同,如何将用户的体能测试数据和健身课程的难易系数挂钩是一个最核心的问题,而决策树算法恰巧是一个非常适合解决这个问题的算法。在使用决策树决定用户的训练强度时,可以利用的变量有很多。最常见的有用户的年龄、性别、身高、体重、肺活量、每分钟脉搏次数、三围、身体脂肪等。一个决策树可以引入十几种甚至近百种变量,从理论上来讲,决策树的变量越多,结果越准确。

决策树的思想十分简单,真正使得决策时所向无敌的是决策树所决策条件的排列顺序。为了得到最优的决策结果,必须像决策树引入熵和信息增益的概念。当然,决策树也有像贪心算法等缺点,这里不做详细讨论。

6.机器学习、深度学习、数据挖掘

一文了解大数据,从算法、架构、应用到规划--童亚斋

另外,大数据在机器学习、深度学习、数据挖掘中也有众多算法应用。

机器学习:语义搜索(沃尔玛利用Kosmix语义搜索技术,提升15%的销售额)、顺序分析(搜狗输入法利用顺序分析进行智能纠错)等。

深度学习:感知神经网络(进行房地产价格预测)、RBM算法(为新闻报道自动分类)等。

数据挖掘:购物篮分析(找出零售业的最佳商品组合,如啤酒和尿布)、马尔可夫链(准确预测市场占有率)等。

大数据技术架构

本篇文章主要是对大数据做一个整体的介绍,因此,涉及的内容比较广。所以,关于具体技术的使用,这里不做详述。以后根据需要,再针对重点部分,进行分解。

1.大数据框架

一文了解大数据,从算法、架构、应用到规划--童亚斋

一文了解大数据,从算法、架构、应用到规划--童亚斋

2.大数据技术图谱

一文了解大数据,从算法、架构、应用到规划--童亚斋

大数据时代滚滚袭来,认知决定布局,行动决定终局,尽早布局,收获未来。

后面会陆续聊聊金融、互联网、信息化、区块链、项目管理、组织建设以及各种杂七杂八的感悟和经历,感谢大家关注。

“同道说"与你同行。

一文了解大数据,从算法、架构、应用到规划--童亚斋

相关文章: