【问题标题】:Twitter Storm v/s Apache HadoopTwitter Storm v/s Apache Hadoop
【发布时间】:2013-08-08 14:01:41
【问题描述】:

如果有人能解释一下 Twitter Storm 和 Apache Hadoop 之间的架构差异,那就太好了?我正在寻找一些超越实时 v/s 批处理的内部信息。由于这两种技术在为 Storm 编写拓扑或在 Hadoop 上的 map-reduce 方面非常相似,在 Hadoop 的任务跟踪器/作业跟踪器和 Storm 的等效 nimbus/supervisor 方面,在 Hadoop 分区和等效洗牌方面(随机,字段等)在 Storm 等上(如果我说 Storm 在内部使用消息队列在 spouts/bolt 之间传输数据,这与 Hadoop 的情况不完全一样,因为其中创建了中间文件,因此是 I/O参与。)

编辑:

我已经解决了Apache Storm compared to Hadoop 的问题,但接受的答案让我渴望了解的不仅仅是用例,即实时v/s 批处理。

【问题讨论】:

  • 可靠系统的架构通常几乎相同。正如您所指出的,唯一真正的区别是存储和发送数据的策略。

标签: hadoop apache-storm


【解决方案1】:

主要区别在于 Storm 可以实时处理 Tupple 的流(传入数据),而 Hadoop 可以使用 MapReduce 作业进行批处理。

它们都以分布式方式处理数据,但使用 Storm,您可以进行实时分析,而您必须等待 mapreduce 作业完成,然后才能使用结果。

【讨论】:

    【解决方案2】:

    Nathan Marz(Storm 创建者)正在写一本关于 Big Data 的书,他在其中讨论了如何使用 Hadoop、Storm 和其他技术创建大数据系统。

    这本书正在讨论“Lambda 架构”。查看 Nathan Marz 本人的这张幻灯片:Runaway complexity in Big Data... and a plan to stop it

    【讨论】:

    • 这本书我等得太久了。
    猜你喜欢
    • 2012-06-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-09-13
    • 1970-01-01
    • 2015-01-15
    • 1970-01-01
    相关资源
    最近更新 更多