技能目标
了解大数据和Hadoop 是什么
掌握Hadoop 的核心构成
了解Hadoop 生态圈
掌握虚拟机、CentOS和 Hadoop 的安装
本章任务
学习本章,需要完成以下3个工作任务。记录学习过程中遇到的问题,
通过自己的努力或访问kgc.cn 解决。
任务1:初识大数据
了解大数据的基本概念和基本特征,以及大数据带给企业的挑战有哪些。
任务2:初识 Hadoop
了解 Hadoop 是什么,掌握 Hadoop 的核心构成,了解 Hadoop 生态圈
中各个组件的功能。
任务3:安装 Hadoop 平台
掌握虚拟机、CentOS、Hadoop 的安装。
任务1 初识大数据
关键步骤如下。
了解大数据是什么。
了解大数据的特征。
了解大数据带给企业哪些方面的挑战。
1.1.1 大数据基本概念
1.大数据概述
相信大家经常会在各种场合听到“大数据”这个词,被誉为数据仓库之父的 Bill
Inmon 早在 20世纪 90 年代就将大数据挂在嘴边了。那么到底什么是大数据呢?这是我
们在本章要了解的。
我们现在生活的时代是一个数据世道,近年来随着互联网的高速发展,每分每秒都
在产生数据,那么产生的这些数据如何进行存储和相应的分析处理呢?各大公司纷纷研发
和采用一批新技术来应对如意庞大的数据处理需求,主要包括分布式文件系统、分布式
计算框架等,这些都是我们需要学习和掌握的。
《互联网周刊》对大数据的定义为:“大数据”的概念远不止大量的数据(TB)
和处理大量数据的技术,或者所谓的“4个V”之类的简单概念,而是涵盖了人们在大
规模数据的基础上可以做的事情,这些事情在小规模数据的基础上是无法实现的。换句
话说,大数据让我们以一种前所未有的方式,通过对海联该数据进行分析,来获得有巨大
价值的产品和服务,或深刻的动检,最终形成变革之力。
2.大数据特征
(1)数据量大(Volume)
随着网络技术的发展和普及,每时每刻都会产生大量的数据。在我们的日常生活中,
比如说在电商网站购物、在直播平台看直播、在线阅读新闻等,都会产生很多的日志,
会在一起没分美妙产生的数据量将是非常巨大的。
(2)类型繁多(Variety)
大数据中最常见的类型是日志,除了日志之外常见的还有音频、视频、图片等。由于
不同累心过的数据没有明显的模式,呈现出多样性的特点,这对于数据的处理要求也会更高。
(3)兼职密度低(Value)
现阶段每时每刻产生的数据量已经很大了,如何从大量的日志中提取出我们需要的、
对我们有价值的信息才是最重要的。数据量越来越大,里面必然会存在着大量与我们所
需不相干的信息,如何更迅速地完成数据的价值提炼,是大数据时代有待解决的问题。
(4)处理速度快(Velocity)
传统的离线处理的时效性不高,换句话说时延是非常高的。随着时代的发展,对时效
型的要求越来越高,需要实时对产生的数据进行分析处理,而不是采用原来的批处理方式。
1.1.2 大数据到来的挑战
1. 对现有数据库的挑战
随着互联网时代的到来,现在产生的数据如果想存储在传统数据库里是不太现实的,
即便传统的数据库有集群的概念,仍然不能处理TB量级的数据。而且现阶段产生的数据
类型很多,有些类型的数据是没办法使用结构化数据查询语言(SQL)来处理的。
2.实时性的技术挑战
我们知道数据产生的价值会随着时间的流逝而大大降低,所以当数据产生胡我们要
尽可能地进行处理。最典型的就是电商网站的推荐系统,早些年的推荐系统都是基于
批处理来进行的,比如每个半天或者一天进行计算然后再进行推荐,这样就会有很大的
延时,对于订单的转换而言虽然有效果但不是很好。如果能做到实时推荐,那么肯定能
大大提高公司的营业收入。
触痛的离线屁处理对处理时间的要求并不高。而实时处理的要求是区别大数据应用
和传统数据库技术或者离线技术的关键差别之一。
3.对数据中心、运维团队的挑战
如今每天产生的数量量正呈爆炸式增长,那么入池多的数据该怎样进行高效的收集、
储存、计算都是数据中心要面临的一个非常棘手的问题。而处理快速增长的数据量所需
要的及其也日益增多,那么对于运维团队来说压力也会增加。
任务2 初识 Hadoop
关键步骤如下。
认知 Hadoop 是什么。
了解 Hadoop 的发展史。
掌握 Hadoop 中的核心组件及功能。
了解Hadoop 常用的发行版本。
了解Hadoop 生态圈中常用的处理框架。
了解大数据在企业中的应用案例。