说起大数据生态体系的起源,不得不提Doug Cutting,这位大数据技术始祖级的人物,在Google的影响下为我们带来了大数据生态体系中最原始也最重要的部分—Hadoop

大数据生态之起源——Hadoop
大数据生态之起源——Hadoop
Doug Cutting,上图居中着,身高一米八往上,其貌不扬,为人谦逊,因其儿子喜欢的玩具为技术发明命名。

1985,毕业于斯坦福大学。
1997,发布Lucene,第一个全文文本搜索开源函数库(流行搜索引擎Solr和Elasticsearch的基石)。
2010,当选Apache Software Foundation主席。
2015,被O’Reilly授予Open Source Award荣誉。(同样被授奖的还有Ceph作者、nodejs作者等,开源人士梦寐以求的大奖)

DC先生研发Hadoop,其灵感来源于Google发表的两篇论文。GFS是Google最初使用的分布式文件系统。MapReduce最早是由Google研究提出的一种面向大规模数据处理的并行计算模型和方法,其初衷主要是为了解决搜索引擎中大规模网页数据的并行化处理。由于MapReduce可以普遍应用于很多大规模数据的计算问题,Google进一步将其广泛应用于很多大规模数据处理问题。到目前为止,Google有上万个各种不同的算法问题和程序都使用MapReduce进行处理。

Google的论文发表不久,2004年,DC基于Google的GFS和MapReduce开始研究如何使网页评分算法运行速度更快的方式。2006,发布Hadoop,同年加入Yahoo,Yahoo强大的研发阵容为DC的研究提供了强大的保障。2008,发布计算网页间链接关系的WebMap算法,在相同的硬件环境下,基于Hadoop的WebMap的反应速度是之前系统的33倍。


Google论文题目 发表年份
The Google file system 2003
MapReduce: simplified data processing on large clusters 2004

2006年,是真正大数据技术生态的元年,其标志就是Hadoop的诞生,这时的生态由Hadoop的通用基础库、分布式文件系统HDFS(Hadoop Distributed File System)和计算框架MapReduce构成,如下图所示。
大数据生态之起源——Hadoop
此后,围绕Hadoop核心,其他大数据组件如雨后春笋般地出现,相继进入大数据生态体系,

Hive来了,MR编程模型代码太多,将传统MR的实现抽象成程序员最熟悉的SQL;

Spark来了,MR计算中间结果存放在磁盘上,多次IO效率低下,Spark将中间计算结果放入内存,将计算速度提升了两个量级;

HBase来了,传统数据库无法动态增加字段,无法解决表稀疏问题,Hbase为此而生

……
每一种大数据组件都有其解决的问题,每一种组件互相配合、相辅相成、争奇斗艳,发展到后期2015年组件达到了100多种,在计算机技术领域里,类型如此之多、数量如此之大,恐独此一份了!最全大数据生态图见下:
大数据生态之起源——Hadoop

相关文章: