最近在B站上看一套44集的大数据教程——经典Hadoop分布式系统基础架构。想通过对Hadoop的学习,跳到大数据领域当中。作为大数据的开篇,主要是做一些大数据扫盲,并且重点介绍Hadoop需要学些什么。

1.何为大数据

IBM提出大数据具有5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性);
百度拥有两种类型的大数据:用户搜索表征的需求数据;爬虫和阿拉丁获取的公共web数据搜索巨头百度围绕数据而生;
阿里巴巴拥有交易数据和信用数据。这两种数据更容易变现,挖掘出商业价值。除此之外阿里巴巴还通过投资等方式掌握了部分社交数据、移动数据,如微博和高德;
腾讯拥有用户关系数据和基于此产生的社交数据。这些数据可以分析人们的生活和行为,从里面挖掘出政治、社会、文化、商业、健康等领域的信息,甚至预测未来。

大数据都应该具备以下几个过程:数据采集、数据清洗、数据建模、数据加工、数据展现。
大数据时代已经到来,必须有大数据思维去发掘大数据的潜在价值,三分技术,七分数据,得数据者得天下。我们需要像维克托·迈尔-舍恩伯格一样有大数据思维:a.需要全部数据样本而不是抽样;b.关注效率而不是精确度;c.关注相关性而不是因果关系

2.大数据就业方向

1)Hadoop开发工程师:解决大数据存储问题;
2)数据分析师:数据搜集、整理、分析,并依据数据做出行业研究、评估和预测,有点像数学建模了;
3)数据挖掘工程师:从海量数据中发现规律,这就需要一定的数学知识;
4)大数据可视化工程师:依据产品业务功能,设计符合需求的可视化方案。

3.大数据需求

去拉勾网随便看了看,需求是很多的。就业方向,个人认为Hadoop开发工程师比较合适,看了一下大部分要求是希望会Java、并且懂得Hadoop平台的搭建与原理。
大数据(一)——概念入门

4.Hadoop的体系

Hadoop是一个分布式系统基础架构。可以看成一个数据管理系统,数据分析是核心,并且汇集了结构化和非结构化的数据,这些数据分布在传统的企业数据栈的每一层。可以看成是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。也可以看成一个开源社区,主要为解决大数据的问题提供工具和软件。

大数据(一)——概念入门

上面这张图片介绍了Hadoop的整个生态,类似spring那种全家桶一样,告诉我们整个框架里都有些什么组件。下面简单介绍一下各个组件:
1)HDFS:Hadoop 生态圈的基本组成部分是 Hadoop 分布式文件系统(HDFS)。HDFS 是一种数据分布式保存机制,数据被保存在计算机集群上。数据写入一次,读取多次。HDFS为 HBase 等工具提供了基础。
2)MapReduce:Hadoop 的主要执行框架是 MapReduce,它是一个分布式、并行处理的编程模型。MapReduce 把任务分为map(映射)阶段和 reduce(化简)。开发人员使用存储在HDFS 中数据(可实现快速存储),编写 Hadoop 的 MapReduce 任务。由于 MapReduce工作原理的特性, Hadoop 能以并行的方式访问数据,从而实现快速访问数据
3)HDFS 中数据(可实现快速存储),编写 Hadoop 的 MapReduce 任务。由于 MapReduce工作原理的特性, Hadoop 能以并行的方式访问数据,从而实现快速访问数据。
4)Hbase:HBase 是一个建立在 HDFS 之上,面向列的 NoSQL 数据库,用于快速读/写大量数据。HBase 使用 Zookeeper 进行管理,确保所有组件都正常运行。
5)ZooKeeper:用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper,它运行在计算机集群上面,用于管理 Hadoop 操作。
6)Hive:Hive 类似于 SQL 高级语言,用于运行存储在 Hadoop 上的查询语句,Hive 让不熟悉 MapReduce 开发人员也能编写数据查询语句,然后这些语句被翻译为 Hadoop 上面的 MapReduce 任务。像 Pig 一样,Hive 作为一个抽象层工具,吸引了很多熟悉 SQL 而不是 Java 编程的数据分析师。
7)Pig:它是 MapReduce 编程的复杂性的抽象。Pig 平台包括运行环境和用于分析 Hadoop数据集的脚本语言(Pig Latin)。其编译器将 Pig Latin 翻译成 MapReduce 程序序列。
8)Sqoop:是一个连接工具,用于在关系数据库、数据仓库和 Hadoop 之间转移数据。Sqoop利用数据库技术描述架构,进行数据的导入/导出;利用 MapReduce 实现并行化运行和容错技术。

5.感受

今天以1.5倍速看了两集Hadoop介绍,知道了Hadoop核心是HDFS与MapReduce。想到一个问题按住Ctrl不放,然后移动方向键,会发现光标跳跃的是分词语进行,这也说明用到了分词器啥的。

相关文章: