Hadoop的起源-Lucene

hadoop入门六(基础知识入门)

  • lucene 也是一个搜索引擎,也迫使它去模仿和学习谷歌如何实现的。

从lucene到nutch 从nutch到hadoop

hadoop入门六(基础知识入门)

目前Hadoop达到的高度

  • 实现云计算的事实标准开源软件
  • 包涵数十个具有强大生命力的子项目
  • 已经能在数千节点上运行,处理的数据量和排序时间不断的打破世界纪录

Hadoop子项目家族

hadoop入门六(基础知识入门)

  • pig:自动转化成mapreduce语言
  • hive:sql到mapreduce的分布式的任务 到节点中运行
  • HBase:nosql非关系数据库 链式存储 提高速度
  • ZooKeeper:通信协调软件
  • Chukwa:抓取数据到项目中

Hadoop的架构

hadoop入门六(基础知识入门)

Namenode

hadoop入门六(基础知识入门)
起到核心的功能:一点它崩溃 其他都崩溃

SecondaryNamenode

hadoop入门六(基础知识入门)
最好翻译成:辅助节点

DataNode

hadoop入门六(基础知识入门)

JobTracker

hadoop入门六(基础知识入门)
hadoop入门六(基础知识入门)

  • jobtracker和namenode都是单点的

TaskTracker

hadoop入门六(基础知识入门)

Master和Slave

hadoop入门六(基础知识入门)

为啥要用Hadoop?

hadoop入门六(基础知识入门)

  • 可以做信号检测 可以分析某个基站附近 的用户 通话几秒中,回拨。

场景:电商运营商信令分析与检测

hadoop入门六(基础知识入门)

  • CPU 扩展很有限
  • 查询:数据量大了,导致查询速度瓶颈

数据分析者的瓶颈

hadoop入门六(基础知识入门)

  • 直接用到分析的结果 推荐一些商品 有些场景要求很高:实时或者半实时
  • 我们的模型越来越复杂 以前都是最大值 最小值 现在神经网络的学习 计算规模的扩展 呈指数级增长 少量的计算机肯定搞不成这个事情

数据期待者期待的解决方案

hadoop入门六(基础知识入门)

Hadoop的思想

hadoop入门六(基础知识入门)

在hadoop,貌似没有天花板,只要加节点就可以了。

为啥不用hadoop?

  1. java:主流的分析语言是用java,你怎么培训java人员,培训成本。
  2. 开源的,假设用户是高手,看起来难以驾驭
  3. 数据集成困难:原来是在关系型数据库中 如何转移数据到hadoop中
  4. Hadoop vs Oracle

推荐教程

hadoop入门六(基础知识入门)

hadoop入门六(基础知识入门)

左边的书已经老了,所以滞后一些。
Hadoop实战第二版的推荐看
hadoop入门六(基础知识入门)
这个没有纸质版的书,只有电子版,而且很严谨。

企业机型选型配置

hadoop入门六(基础知识入门)
解释:标准的意思是普通的可以替换的机型

网络拓扑设计

hadoop入门六(基础知识入门)
还是主张:运行在局域网下面

操作系统的选择

hadoop入门六(基础知识入门)

JDK

hadoop入门六(基础知识入门)
实际上也是能在树莓派上装hadoop!

相关文章: