大数据概述
什么是大数据?
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ------百度百科
一,大数据时代:
1)第一次信息化浪潮使计算机开始普及,第二次信息化浪潮人类全面进入互联网时代,第三次信息化浪潮解决了信息爆炸问题,大数据时代来。
2)存储设备容量不断增加,cpu处理能力大幅度提升,网络带宽不断增加为大数据时代提供技术支持。
3)数据产生方式从1.运营式阶段>2.用户原创内容阶段>3.感知式阶段 的变革促成了大数据时代的到来。
4)大数据发展阶段:
1.萌芽阶段:20世纪90年代至21世纪初,随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等
2.成熟阶段:21世纪前10年,web2.0应用发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。
3.大规模应用期:2010年以后,大数据应用渗透各行业,数据驱动决策,信息社会智能化程度大幅度提高
二,大数据概念:“4个V”
1)数据量大(volume)
2)数据类型繁多(variety)
3)处理速度快(velocity)
4)价值密度低(value)
三,大数据影响:
1)大数据对科学研究的影响:
1.实验科学>2.理论科学>3.计算科学>4.数据密集型科学
2)大数据对思维方式的影响:
1.全样而非抽样
2.效率而非精确
3.相关而非因果
3)大数据对社会发展的影响:
1.大数据决策成为一种新的决策方式
2.大数据应用促进信息技术与各行业的深度融合
3.大数据开发推动新技术和新应用的不断涌现
四,大数据的应用:
大数据无处不在,包括金融、汽车、餐饮、电信、能源、体育和娱乐等在内的社会各行各业都已经融入了大数据的印记
五,大数据关键技术:
| 技术层面 | 功能 |
| 数据采集与预处理 | 利用ETL工具将分布的、异构数据源中的数据,如关系数据,平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志采集工具(如Flume、kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析 |
| 数据存储和管理 | 利用分布式文件系统、数据仓库、关系数据库、nosql数据库、云数据库等,实现对结构化、半结构化和非结构化和非结构化海量数据的存储和管理 |
| 数据处理与分析 | 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据 |
| 数据安全和隐私保护 | 在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全 |
六,大数据计算模式:
| 大数据计算模式 | 解决问题 | 代表产品 |
| 批处理计算 | 针对大规模数据的批量处理 | MapReduce、Spark等 |
| 流计算 | 针对流数据的实时计算 | Storm、S4、Flume、Streams、Puma、DStream、SuperMario、银河流数据处理平台等 |
| 图计算 | 针对大规模图结构数据的处理 | Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 |
| 查询分析计算 | 大规模数据的存储管理和查询分析 | Dremel、Hive、Cassandra、Impala等 |
七,大数据产业:
大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。
大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层。
八,大数据与云计算、物联网:
一)云计算:
1)云计算概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地地获得所需的各种IT资源
2)元计算的关键技术:虚拟化、分布式存储、分布式计算、多租户等。
3)云计算数据中心:是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备一级耕种安全装置等。数据中心是云计算的重要载体,为云计算提供计算、存储、宽带等各种硬件资源,为各种平台和应用提供运行支撑环境。
4)云计算的应用:在电子政务、医疗、卫生、教育、企业等领域的应用不断深化,对提高政府服务水平促进产业转型升级和培育发展新兴产业等都起到了关键作用。
5)云计算产业:云计算产业为战略新兴产业,近些年来得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)终端设备、云安全、云计算交付/咨询/认证等。
二)物联网:
1)物联网概念:
是物物相连的互联网,是互联网的延伸,它利用菊部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
从结构上,物联网可分为四层:感知层,网络层、处理层、应用层。
2)物联网关键技术:
识别和感知技术、网络通信技术、数据挖掘与融合技术、
3)物联网的应用:
已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用。
4)物联网产业:
完整的物联网产业链主要包括核心感应提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案、系统集成商、运营及服务提供商等环节。
三)大数据与云计算、物联网的关系:
1)大数据、云计算和物联网的区别:
大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;
云计算本质上旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;
物联网的发展目标是实现物物相连,应用创新是物联网发展的核心。
2)大数据、云计算与物联网的联系:
整体上看,三者相辅相成;
大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式数据存储和管理系统提供了海量数据的存储和管理能力,分布式并行处理框架MapReduce提供了海量数据分析能力
大数据为云计算提供了“用武之地”,使云计算能发挥出价值
物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,同时物联网需要借助于云计算和大数据技术,实现物联网大数据的存储、分析和处理。