【发布时间】:2021-11-21 13:04:54
【问题描述】:
我目前正在从文件源进行流式传输,但每次需要写入 .compact 文件时,都会出现很大的延迟峰值(约 5 分钟;.compact 文件约为 2.7GB)。这有点令人恼火,因为我试图将滚动窗口的延迟保持在阈值以下,并且每隔半小时就会在上面多花五分钟。
是否有任何用于调整 .compact 文件写入的 spark 参数?该系统的文档似乎很少。
【问题讨论】:
标签: apache-spark pyspark spark-structured-streaming