【发布时间】:2014-03-12 02:22:47
【问题描述】:
我想使用 Hadoop 处理每 n 分钟生成的输入文件。我应该如何解决这个问题?例如,我每 10 分钟收到一次美国城市的温度测量值,我想计算每周和每月每天的平均温度。
PS:到目前为止,我已经考虑使用 Apache Flume 来获取读数。它将从多个服务器获取数据并定期将数据写入 HDFS。我可以从那里读取和处理它们。
但是我怎样才能避免一次又一次地处理相同的文件呢?
【问题讨论】:
标签: file hadoop input generated