【问题标题】:Shuffle service now enabled by default in apache beam?现在在 apache Beam 中默认启用随机播放服务?
【发布时间】:2021-04-29 02:45:22
【问题描述】:

在我们没有任何改变的情况下,我们使用 python SDK 进行数据流的工作已经开始使用 shuffle 服务:

根据docs

要在批处理管道中使用基于服务的 Dataflow Shuffle,请指定以下参数: --experiments=shuffle_mode=service

但是,我们没有启用此标志。

这样做的一个主要影响是我们的工作人员磁盘的默认大小从 250GB 变为 25GB。在一种情况下,我们在 worker 启动时磁盘空间不足,导致挂起的作业永远无法完成。

问题是:

  • 这是底层数据流环境的变化吗?
  • 此类更改在哪里公布?

【问题讨论】:

    标签: google-cloud-dataflow apache-beam


    【解决方案1】:
    • 这是底层数据流环境的变化吗?

      是的。

    • 此类更改在哪里公布?

      我找不到有关此更改的任何公告。但它应该更新here。我会确保它是最新的。

    自 2020 年 10 月起,批处理作业开始默认选择使用 Dataflow Shuffle。要选择不使用它,请指定 --experiments=shuffle_mode=appliance

    【讨论】:

    • 公众号doc已更新。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-02-11
    • 1970-01-01
    • 1970-01-01
    • 2023-01-23
    • 1970-01-01
    相关资源
    最近更新 更多