【发布时间】:2015-12-16 02:43:24
【问题描述】:
我有很多日志文件的源目录,我想使用 Apache Flume 来使用这些日志文件并将数据传输到 HDFS。我只是想知道 Flume 是如何知道已经处理的日志文件的?有什么配置吗?
【问题讨论】:
我有很多日志文件的源目录,我想使用 Apache Flume 来使用这些日志文件并将数据传输到 HDFS。我只是想知道 Flume 是如何知道已经处理的日志文件的?有什么配置吗?
【问题讨论】:
您所说的数据摄取类型,即在文件放入目录时使用文件,是通过Spooling Directory Source 实现的。如果您查看文档,您会看到:
此源允许您通过将要摄取的文件放入磁盘上的“假脱机”目录来摄取数据。此源将监视指定目录中的新文件,并在新文件出现时从新文件中解析事件。事件解析逻辑是可插拔的。 给定文件被完全读入通道后,它被重命名以指示完成(或可选地删除)。
【讨论】: