【问题标题】:Hadoop on periodically generated filesHadoop 定期生成的文件
【发布时间】:2014-03-12 02:22:47
【问题描述】:

我想使用 Hadoop 处理每 n 分钟生成的输入文件。我应该如何解决这个问题?例如,我每 10 分钟收到一次美国城市的温度测量值,我想计算每周和每月每天的平均温度。

PS:到目前为止,我已经考虑使用 Apache Flume 来获取读数。它将从多个服务器获取数据并定期将数据写入 HDFS。我可以从那里读取和处理它们。

但是我怎样才能避免一次又一次地处理相同的文件呢?

【问题讨论】:

    标签: file hadoop input generated


    【解决方案1】:

    您应该考虑使用像 Storm 这样的大数据流处理平台(我非常熟悉,不过还有其他平台),它可能更适合您提到的聚合和指标类型。

    但是,无论哪种方式,您都将实施某种形式,该形式具有整个处理数据集的形式,可以很容易地应用刚刚收集的数据的增量来为您提供最新的指标。此合并的另一个输出是一组新数据,您将在其中应用下一小时的数据。以此类推。

    【讨论】:

    • 我在考虑使用同样支持流处理的 Apache Spark。感谢您提及风暴。我会检查一下,看看哪个更适合我的情况。
    猜你喜欢
    • 2016-05-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-08-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-09-15
    相关资源
    最近更新 更多