Hadoop诞生
Hadoop是 Apache Lucene创始人 Doug Cutting创建的,Lucene是一个应用广泛的文本搜素系统库。
Hadoop起源于开源的网络搜索引擎 Apache Nutch,它本身也是Lucene项目的一部分。
它在其中扮演着数据存储的角色,能够解决在网页爬取的时候产生的超大文件的存储需求。
插叙-----为啥叫Hadoop
从头打造一个搜素引擎
以谷歌的三篇论文,GFS、MapReduce、BigTable为基础,形成了互联网生态圈。典型特征为搭建无共享的MPP集群获得分布并行的数据处理能力,进而拥有高可用性和高性能的优势。
关系型数据库和MapReduce的比较
Hadoop数据处理流程