【发布时间】:2017-05-23 06:40:46
【问题描述】:
我正在尝试设置一个谷歌云数据流管道(流模式),它读取 pubsub 主题消息,从发布的消息中提取信息(谷歌云存储中的对象名称),然后启动另一个管道(批处理模式)来处理存储在谷歌云存储。
是否可以在管道中启动另一个管道???
【问题讨论】:
-
您能否编辑您的问题以详细说明您的用例?或许可以通过一条管道来实现,这样管理起来会简单得多。
-
这是我的用例。我每小时生成一次日志并存储在云存储中。我为该存储桶配置了对象更改通知,并将通知发布到我在 GAE 上开发的应用程序。 GAE 应用程序收到对象更改通知 POST 后,我提取了新生成的日志名称,并使用云 pub/sub 发布到主题。然后我的数据流程序使用 PUBSUBIO 从主题中读取(以流模式)消息并提取日志名称和存储桶信息。然后,我希望启动另一个管道来批处理指定的日志。
-
如果您启动另一个管道的唯一原因是在到达的日志文件名上应用 TextIO.Read.from(),那么我建议更改此设置并使用简单的手动 ParDo 读取日志。例如。见stackoverflow.com/questions/32277968/…
-
感谢您的回复。
标签: google-cloud-dataflow google-cloud-pubsub