Hadoop 定期生成的文件

【问题标题】：Hadoop on periodically generated filesHadoop 定期生成的文件
【发布时间】：2014-03-12 02:22:47
【问题描述】：

我想使用 Hadoop 处理每 n 分钟生成的输入文件。我应该如何解决这个问题？例如，我每 10 分钟收到一次美国城市的温度测量值，我想计算每周和每月每天的平均温度。

PS：到目前为止，我已经考虑使用 Apache Flume 来获取读数。它将从多个服务器获取数据并定期将数据写入 HDFS。我可以从那里读取和处理它们。

但是我怎样才能避免一次又一次地处理相同的文件呢？

【问题讨论】：

【解决方案1】：

您应该考虑使用像 Storm 这样的大数据流处理平台（我非常熟悉，不过还有其他平台），它可能更适合您提到的聚合和指标类型。

但是，无论哪种方式，您都将实施某种形式，该形式具有整个处理数据集的形式，可以很容易地应用刚刚收集的数据的增量来为您提供最新的指标。此合并的另一个输出是一组新数据，您将在其中应用下一小时的数据。以此类推。

【讨论】：