生活很美好,明天很艳丽。
目录
一.Hadoop介绍
Apache Hadoop是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设,即硬件故障是常见情况,应该由框架自动处理。
Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上运行或重新运行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据连接起来。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache Hive和Apache HBase等等
二.主要子项目
-
Hadoop Common:在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从
0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common -
HDFS:
Hadoop分布式文件系统(Distributed File System) HDFS(Hadoop DistributedFile System) -
MapReduce:
并行计算框架,0.20前使用org.apache.hadoop.mapred旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
三.相关项目
-
Apache
HBase:分布式NoSQL列数据库,类似谷歌公司BigTable。 -
Apache
Hive:构建于hadoop之上的数据仓库,通过一种类SQL语言HiveQL为用户提供数据的归纳、查询和分析等功能。Hive最初由Facebook贡献。 -
Apache
Mahout:机器学习算法软件包。 -
Apache
Sqoop:结构化数据(如关系数据库)与Apache Hadoop之间的数据转换工具。 -
Apache
ZooKeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。 -
Apache
Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。
四.知名用户
1.Hadoop在Yahoo!的应用
2008年2月19日,雅虎使用10,000个微处理器核心的Linux计算机集群运行一个Hadoop应用程序
2其他用户
五.Hadoop与Sun Grid Engine
昇阳电脑的Sun Grid Engine可以用来调度Hadoop Job
六.Hadoop与Condor
威斯康辛大学麦迪逊分校的Condor计算机集群软件也可以用作Hadoop Job的调度。
注:文章内容摘抄维基百科Hadoop内容
后面我会持续更新,喜欢的小伙伴可以关注或者点赞评论哟…