大数据生态之起源——Hadoop

说起大数据生态体系的起源，不得不提Doug Cutting，这位大数据技术始祖级的人物，在Google的影响下为我们带来了大数据生态体系中最原始也最重要的部分—Hadoop。

大数据生态之起源——Hadoop

Doug Cutting，上图居中着，身高一米八往上，其貌不扬，为人谦逊，因其儿子喜欢的玩具为技术发明命名。

1985，毕业于斯坦福大学。
1997，发布Lucene，第一个全文文本搜索开源函数库（流行搜索引擎Solr和Elasticsearch的基石）。
2010，当选Apache Software Foundation主席。
2015，被O’Reilly授予Open Source Award荣誉。（同样被授奖的还有Ceph作者、nodejs作者等，开源人士梦寐以求的大奖）

DC先生研发Hadoop，其灵感来源于Google发表的两篇论文。GFS是Google最初使用的分布式文件系统。MapReduce最早是由Google研究提出的一种面向大规模数据处理的并行计算模型和方法，其初衷主要是为了解决搜索引擎中大规模网页数据的并行化处理。由于MapReduce可以普遍应用于很多大规模数据的计算问题，Google进一步将其广泛应用于很多大规模数据处理问题。到目前为止，Google有上万个各种不同的算法问题和程序都使用MapReduce进行处理。

Google的论文发表不久，2004年，DC基于Google的GFS和MapReduce开始研究如何使网页评分算法运行速度更快的方式。2006，发布Hadoop，同年加入Yahoo，Yahoo强大的研发阵容为DC的研究提供了强大的保障。2008，发布计算网页间链接关系的WebMap算法，在相同的硬件环境下，基于Hadoop的WebMap的反应速度是之前系统的33倍。

Google论文题目	发表年份
The Google file system	2003
MapReduce: simplified data processing on large clusters	2004

2006年，是真正大数据技术生态的元年，其标志就是Hadoop的诞生，这时的生态由Hadoop的通用基础库、分布式文件系统HDFS（Hadoop Distributed File System）和计算框架MapReduce构成，如下图所示。
大数据生态之起源——Hadoop
此后，围绕Hadoop核心，其他大数据组件如雨后春笋般地出现，相继进入大数据生态体系，

Hive来了，MR编程模型代码太多，将传统MR的实现抽象成程序员最熟悉的SQL;

Spark来了，MR计算中间结果存放在磁盘上，多次IO效率低下，Spark将中间计算结果放入内存，将计算速度提升了两个量级；

HBase来了，传统数据库无法动态增加字段，无法解决表稀疏问题，Hbase为此而生

……
每一种大数据组件都有其解决的问题，每一种组件互相配合、相辅相成、争奇斗艳，发展到后期2015年组件达到了100多种，在计算机技术领域里，类型如此之多、数量如此之大，恐独此一份了！最全大数据生态图见下：
大数据生态之起源——Hadoop