当人们谈论大数据时,首先想到的是Hadoop。如果你用谷歌搜索Hadoop,大约会返回2800万个结果。

今天我要告诉大家为什么Hadoop如此流行。

Hadoop已经从一个平台发展成一个生态系统,它的设计允许很多Apache项目和第三方工具从Hadoop中受益。

在之前的文章中,我们探讨了入门知识和基础技能,接下来继续探讨高级技能。

系列文章:

《数据工程指南:初学者入门》
《数据工程指南:基础技能》
《数据工程指南高级技能:如何选择数据平台》

原文来源于Github开源项目《The Data Engineering Cookback》
作者:Andreas Kretz
感兴趣可以查看:Data Engineering Cookbook

什么是Hadoop?

Hadoop是一个分布式存储和处理大型数据集的平台。

Hadoop有四个主要模块:Hadoop common、HDFS、MapReduce和YARN,它们是Hadoop成功的基础。

Hadoop的公共库和函数都是在后台工作的,这里不做深入研究,它们用于支持四个核心模块。

什么令Hadoop如此受欢迎?

存储和分析大数据的解决方案并不少,但是,是什么让Hadoop如此受欢迎呢?

Hadoop的核心功能是其广泛流行的主要原因,Apache的很多项目都利用了Hadoop的核心功能。

随着大量围绕Hadoop核心功能构建的项目的蓬勃发展,Hadoop已经发展为一个生态系统,专门用于存储和分析大数据。

为了让大家有一个清晰的认识,我画了一幅图,展示了一些与Hadoop密切相关的子项目。

这不是一个完整的清单,还有很多工具我都不知道。

数据工程指南高级技能:Hadoop平台

Hadoop生态系统

还记得我的大数据平台蓝图吗?蓝图包含四个部分:提取、存储、分析和展示。

利用Hadoop生态系统,这些阶段的不同工具可以完美地协同工作。

举一个例子:

数据工程指南高级技能:Hadoop平台

先使用Apache Kafka接收数据,将其存储在HDFS中,然后使用Apache Spark进行分析,并作为展示的后端,将数据存储在Apache Hbase中。

为了让系统有效工作,需要用YARN进行资源管理。还需要Zookeeper,一个配置管理服务来使用Kafka和Hbase。

正如上图所展示,每个项目都是紧密相连的。

比如Spark,可以直接访问Kafka来消费消息,可以访问HDFS来存储或处理数据,还可以写入HBase,将分析结果推送到前端。

这种生态系统最酷的地方在于很容易构建新的功能。

如果不使用Spark,能否直接将Kafka的数据存储到HDFS?

没问题,Apache Flume有Kafka和HDFS接口,它可以充当一个代理来消费Kafka的消息并将其存储到HDFS中,而且完全不需要担心Flume的资源管理问题。

Flume可以直接调用Hadoop的YARN做资源管理。

数据工程指南高级技能:Hadoop平台

Hadoop无处不在?

虽然Hadoop很受欢迎,但它并不是万能的,不应该成为解决问题的通用方案。

通常部署Hadoop集群是没有意义的,这样做可能浪费很多资源。

Hadoop无法单个服务器上运行,基本上至少需要5台服务器,最好是6台服务器来运行一个小型集群。即便如此,初始平台的成本也非常高。

一个可行的替代方案是使用像Cassandra、MongoDB或其他强大的非关系型数据库进行存储,或者使用Amazon云计算平台的简单存储服务S3。

猜猜S3背后的技术是什么?是的,HDFS,这就是为什么AWS能推出Elastic MapReduce服务的原因。

S3最棒的地方在于,可以从少量数据开始,当你的系统增长时,不必担心服务器性能。

要学习Hadoop吗?

正如我在本文中向您展示的,Hadoop生态系统相当庞大。

很多大数据项目都使用Hadoop或者可以与之交互,这就是为什么了解尽可能多的大数据技术是个好主意。

不是深入研究,而是要知道它们是如何工作的,以及如何使用它们。

当你加入一个大数据项目时,主要目标是马上将系统运行起来。

另外,大多数技术都是开源的,任何人可以免费使用。


你们的点赞和收藏是我们最大的创作动力,我们每天都会为大家带来数据科学和量化交易领域的精品内容。

蜂鸟数据:开源金融数据接口,一个API连接世界金融市场。

蜂鸟数据团队由业界顶尖的数据工程师,数据科学家和宽客组成,我们正努力构建一个开源的金融数据库,并提供API接口,目标是令金融数据开源化和平民化。

浏览并测试我们接口吧,目前覆盖股票,外汇,商品期货,数字货币和宏观经济领域,包括实时报价(tick)和历史数据(分钟),提供REST API和Websocket两种接入方式,能够满足金融分析师,量化交易和理财app的需求。

蜂鸟数据API接口文档

登录蜂鸟官网,注册免费获取API**

相关文章:

  • 2021-05-07
  • 2021-07-05
  • 2021-04-20
  • 2021-05-12
  • 2021-05-15
  • 2021-08-26
  • 2021-07-12
猜你喜欢
  • 2021-06-21
  • 2021-07-29
  • 2022-01-19
  • 2022-12-23
  • 2021-05-18
  • 2021-07-05
  • 2021-05-30
相关资源
相似解决方案