【发布时间】:2015-11-22 01:13:03
【问题描述】:
如果在 Spark Streaming 中启用了预写日志,是否所有接收到的数据都会写入 HDFS 路径?或者它只写入元数据。 清理是如何工作的,HDFS 路径是否每天都变得越来越大,我是否需要编写清理作业以从预写日志文件夹中删除数据? 预写日志文件夹实际上有什么?
谢谢 斯里
【问题讨论】:
标签: apache-spark spark-streaming
如果在 Spark Streaming 中启用了预写日志,是否所有接收到的数据都会写入 HDFS 路径?或者它只写入元数据。 清理是如何工作的,HDFS 路径是否每天都变得越来越大,我是否需要编写清理作业以从预写日志文件夹中删除数据? 预写日志文件夹实际上有什么?
谢谢 斯里
【问题讨论】:
标签: apache-spark spark-streaming
启用 WAL 后,数据将被序列化并保存到 HDFS。因此,您的所有假设都是正确的,HDFS 文件变大了。但是,它会通过单独的过程进行清理。我还没有实际的参考资料来解释这一点,但您可以在源代码中看到这一点。此外,它还引入了更长的处理时间,因为这些是与您的转换和操作一起运行的进程
【讨论】: