从Hadoop框架讨论大数据生态

1.hadoop是什么?

i.hadoop 是由apche 基金会所开发的一个分布式系统基础框架
ii.主要解决数据存储和数据分析(海量的数据)
iii.更广泛的说hadoop是指一个更广义的概念–hadoop生态圈
如图:
第2章 从Hadoop框架讨论大数据生态

2.hadoop发展历史

人物 :doug cutting
第2章 从Hadoop框架讨论大数据生态

a. Lucene 框架是Doug cutting 开创的开源软件,用Java写的,实现全文搜索和查询架构,据说灵感来自他的妻子每天的菜谱。
b.2001年lucene 成为apche的一个子项目
c. 随着数据的增长,出现了存储困难,检索慢
d.hadoop的思想之源 (google 在大数据方面的三篇论文)
GFS ---->HDFS
Map-Reduce ----> MR
BigTable —> HBase

e. doug cutting 等人实现了dfs和mapreduce的机制 使nutch 性能飙升。
f.名字来源于doug cutting 儿子的玩具大象第2章 从Hadoop框架讨论大数据生态
g. 2006年map-reduce 和 nutch distributed file system 被纳入hadoop项目中,Hadoop就此诞生,标志着大数据的来临!

3. hadoop 发行版本

三大发行版本:apache ,coudera ,hortonworks
apache 版本最原始(基础)的版本,入门较好。
coudera 企业用的比较多
hortonworks 文档好

Apache Hadoop下载地址
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/

4.hadoop 的优势(4高)

i .高可靠性 : hadoop底层维护多个数据副本,当计算或者存储出现故障,也不会导致数据丢失
ii.高扩展性:在集群分配任务数据,可以扩展数以千计的节点
iii.高效性: 在map -reduce的思想下,hadoop是并行的,加快任务的处理速度。
vi.高容错性: 能够自动将分配的失败的任务重新分配

5.hadoop 组成

第2章 从Hadoop框架讨论大数据生态

5.1 HDFS 架构概述

1.namenode (n) :存储元数据
2.datanode: 存储文件块数据
3.secondaer namenode(2nn) 用来监控hdfs 的状态的后台程序,每个一段时间获取hdfs的元数据快照(保存当时的状态)。说白了就是负责辅助namenode的。

5.2 yarn 架构概述

yarn结构图
第2章 从Hadoop框架讨论大数据生态

5.2 MapReduce 架构概述

what ?
hadoop map/reduce 是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千计算机组成的大型机器上,并可以处理T级别的数据集。
map (映射):主节点读入输入数据,把它分相同的方法解决的小数据块。并分到不同的工作节点上(worder nodes)
reduce (归约):主节点得到所有的子节点的处理结果,在组合并返回输出。
个人理解:
map 就是分,reduce则是合。
第2章 从Hadoop框架讨论大数据生态

6.大数据技术生态体系

第2章 从Hadoop框架讨论大数据生态
1.sqoop :一种开源工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中
2.flume :负责日志收集和整合
3.kafka:发布订阅消息系统
4.storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户
5.spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算
6.Hbase:是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
7,hive:数据仓库工具
8.R语言:用户统计分析,绘图的语言操作环境。统计计算和统计制图的优秀工具
9.:zookeeper:Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户
10.Oozie:管理Hdoop作业(job)的工作流程调度管理系统
11.Mahout:可扩展的机器学习和数据挖掘库

推荐系统项目框架

第2章 从Hadoop框架讨论大数据生态

相关文章:

  • 2021-10-04
  • 2021-08-07
  • 2021-04-14
  • 2021-09-19
  • 2021-06-29
  • 2021-11-21
  • 2021-11-20
  • 2021-11-14
猜你喜欢
  • 2021-05-19
  • 2021-06-25
  • 2021-09-12
  • 2021-10-12
  • 2021-09-10
  • 2022-01-11
相关资源
相似解决方案