【发布时间】:2015-05-15 08:29:01
【问题描述】:
- 我无法让我的 Spark 作业从 HDFS 流式传输“旧”文件。
如果我的 Spark 作业由于某种原因(例如演示、部署)而关闭,但写入/移动到 HDFS 目录的过程是连续的,我可能会在启动 Spark Streaming 作业后跳过这些文件。
val hdfsDStream = ssc.textFileStream("hdfs://sandbox.hortonworks.com/user/root/logs")
hdfsDStream.foreachRDD(
rdd => logInfo("Number of records in this batch: " + rdd.count())
)
输出 --> 本批次记录数:0
Spark Streaming 有没有办法将“读取”文件移动到不同的文件夹?还是我们必须手动编程?所以它会避免读取已经“读取”的文件。
Spark Streaming 是否与在 CRON 中运行 spark 作业 (sc.textFile) 相同?
【问题讨论】:
标签: hadoop apache-spark hdfs spark-streaming