【发布时间】:2016-01-04 10:35:16
【问题描述】:
对于使用spark streaming 的日志处理,我使用了socketStream 和textFileStream API。通过socketStream,在特定端口上使用nc -lk可以读取附加的日志文件,通过textFileStream可以读取目录中新增的任何文件并进行累积处理。
我正在寻找一个单个日志文件,它随着时间的推移而增长,我怎样才能将同一个日志文件读入说:DStream 或任何Spark RDD 句柄,然后累积处理它。我不打算使用nc -lk,因为它可能不是通用方法。 Spark中是否有任何方式或API,我们可以在其中监听日志文件,并且将读取其中的任何内容并将其处理为RDD格式?
【问题讨论】:
-
你可能想看看 Kafka。
标签: apache-spark spark-streaming