Twitter Storm v/s Apache Hadoop答案

【问题标题】：Twitter Storm v/s Apache HadoopTwitter Storm v/s Apache Hadoop
【发布时间】：2013-08-08 14:01:41
【问题描述】：

如果有人能解释一下 Twitter Storm 和 Apache Hadoop 之间的架构差异，那就太好了？我正在寻找一些超越实时 v/s 批处理的内部信息。由于这两种技术在为 Storm 编写拓扑或在 Hadoop 上的 map-reduce 方面非常相似，在 Hadoop 的任务跟踪器/作业跟踪器和 Storm 的等效 nimbus/supervisor 方面，在 Hadoop 分区和等效洗牌方面（随机，字段等）在 Storm 等上（如果我说 Storm 在内部使用消息队列在 spouts/bolt 之间传输数据，这与 Hadoop 的情况不完全一样，因为其中创建了中间文件，因此是 I/O参与。）

编辑：

我已经解决了Apache Storm compared to Hadoop 的问题，但接受的答案让我渴望了解的不仅仅是用例，即实时v/s 批处理。

【问题讨论】：

可靠系统的架构通常几乎相同。正如您所指出的，唯一真正的区别是存储和发送数据的策略。

标签： hadoop apache-storm

【解决方案1】：

主要区别在于 Storm 可以实时处理 Tupple 的流（传入数据），而 Hadoop 可以使用 MapReduce 作业进行批处理。

它们都以分布式方式处理数据，但使用 Storm，您可以进行实时分析，而您必须等待 mapreduce 作业完成，然后才能使用结果。

【讨论】：

【解决方案2】：

Nathan Marz（Storm 创建者）正在写一本关于 Big Data 的书，他在其中讨论了如何使用 Hadoop、Storm 和其他技术创建大数据系统。

这本书正在讨论“Lambda 架构”。查看 Nathan Marz 本人的这张幻灯片：Runaway complexity in Big Data... and a plan to stop it

【讨论】：

这本书我等得太久了。