【发布时间】:2020-07-05 03:37:26
【问题描述】:
我试图配置和部署真正单线程的 Cloud Dataflow 作业,以避免在数据存储区中创建/更新实体时出现并发问题。我假设使用 n1-standard-1 机器可以确保作业在单线程上运行,在单台机器上运行,但我发现事实并非如此。
我在这里查看了之前查询中提到的建议-Can I force a step in my dataflow pipeline to be single-threaded (and on a single machine)?
但我想避免围绕此实施窗口化方法,并想知道是否有更简单的方法来简单地配置作业以确保单线程行为。
任何建议或见解将不胜感激
【问题讨论】:
-
您是否处于流媒体模式(PubSub 源)?还是批处理模式?
-
如果您使用的是无限源,则无论如何都需要一个窗口。请让我知道有关您的管道的更多详细信息
-
我使用 Kafka 作为我的流媒体源。
标签: google-cloud-platform concurrency pipeline dataflow single-threaded