【发布时间】:2016-11-26 20:15:06
【问题描述】:
我们目前正在使用 Google 的 Cloud Dataflow SDK (1.6.0) 在 GCP 中运行数据流作业,但是,我们正在考虑迁移到 Apache Beam SDK (0.1.0)。我们仍将使用数据流服务在 GCP 中运行我们的作业。有没有人经历过这种转变并提出建议?这里是否存在任何兼容性问题,GCP 是否鼓励这一举措?
【问题讨论】:
标签: google-cloud-dataflow apache-beam
我们目前正在使用 Google 的 Cloud Dataflow SDK (1.6.0) 在 GCP 中运行数据流作业,但是,我们正在考虑迁移到 Apache Beam SDK (0.1.0)。我们仍将使用数据流服务在 GCP 中运行我们的作业。有没有人经历过这种转变并提出建议?这里是否存在任何兼容性问题,GCP 是否鼓励这一举措?
【问题讨论】:
标签: google-cloud-dataflow apache-beam
Dataflow 尚不支持正式的 Beam(尽管这肯定是我们正在努力的方向)。我们建议您继续使用 Dataflow SDK,尤其是在 SLA 或支持对您很重要的情况下。也就是说,我们的测试表明 Beam 在 Dataflow 上运行,尽管这可能随时中断,但当然欢迎您自担风险尝试。
更新: 自 Dataflow SDK 2.0 (https://cloud.google.com/dataflow/release-notes/release-notes-java-2) 发布以来,Dataflow SDK 现在基于 Beam。 Cloud Dataflow 目前支持 Beam 和 Dataflow SDK。
【讨论】:
您现在可以在 Dataflow 上运行 Beam SDK 流水线。见:
https://beam.apache.org/documentation/runners/dataflow/
您需要向 pom.xml 添加一个依赖项,可能还需要添加一些命令行选项,如该页面所述。
【讨论】: