【发布时间】:2021-04-29 02:45:22
【问题描述】:
在我们没有任何改变的情况下,我们使用 python SDK 进行数据流的工作已经开始使用 shuffle 服务:
根据docs:
要在批处理管道中使用基于服务的 Dataflow Shuffle,请指定以下参数:
--experiments=shuffle_mode=service
但是,我们没有启用此标志。
这样做的一个主要影响是我们的工作人员磁盘的默认大小从 250GB 变为 25GB。在一种情况下,我们在 worker 启动时磁盘空间不足,导致挂起的作业永远无法完成。
问题是:
- 这是底层数据流环境的变化吗?
- 此类更改在哪里公布?
【问题讨论】:
标签: google-cloud-dataflow apache-beam