由Word Count入门Apache Storm - 爱码网

Storm是一个分布式流处理框架。

入门

Word count作为分布式的"hello world"，这里由word count引出Storm的topology概念。

有一系列DNS查询，需要统计被查询最多次的域名

由Word Count入门Apache Storm

从函数式编程的角度来讲，可以把算法归纳为下图

由Word Count入门Apache Storm

即为
h ( g ( f (data) ) )

转换为Storm topology

由Word Count入门Apache Storm

Topology：拓扑结构
Spout：spout作为整个拓扑的数据源，一个topology中可能存在多个数据源。上图中即为提供DNS查询的数据源
Bolt： bolt是topology中的基本数据处理单元。上图中，即为f,g,h三个函数。
Tuple: 基本数据单元。例（1.1.1.1， "foo.com"）
Stream: 无止境一串的tuple流 ... (2.2.2.2, “bar.net”)， (3.3.3.3, “foo.com”)， (4.4.4.4, “foo.com”) ...

由Word Count入门Apache Storm

由Word Count入门Apache Storm

由Word Count入门Apache Storm

Hadoop主要用来处理batch（批处理）数据， Storm主要用来处理Stream（流式）数据。主要区别如下图所示：
由Word Count入门Apache Storm