【发布时间】:2021-11-28 18:41:28
【问题描述】:
我正在使用 Apache Beam 将管道部署到 Google Cloud DataFlow。当我想将更改部署到管道时,我会排空正在运行的管道并重新部署它。我想让这更快。从日志中可以看出,DataFlow 在每次部署时都会从头开始构建新的工作节点:我看到了 Linux 启动消息。
是否可以在不拆除工作节点的情况下耗尽管道,以便下一次部署可以重用它们?
【问题讨论】:
-
您是否检查过更新管道?
-
@Iñigo 是的,但它只在特殊情况下有效,
--updatearg 在 Beam 的 DataFlow SDK 中是 marked as experimental -
回答原始问题,不,没有办法做到这一点。更新应该是要走的路。我不知道它被标记为实验性的(可能我们应该改变它),但更新方法在我使用 DF 的最后 3 个中没有改变。关于更新不起作用的特殊情况,假设您的功能存在,工作人员仍然需要新代码,因此无需保存太多,并且在大多数其他情况下更新应该可以工作。
标签: google-cloud-platform google-cloud-dataflow apache-beam