【发布时间】:2020-10-27 21:54:46
【问题描述】:
我开始使用 Google Cloud Dataflow 进行批处理和流式处理。正在开发的作业主要用于从不同来源(MySQL、Kafka 和文件系统)摄取数据、清理它们、进行一些流式传输和浴聚合,以及写回 Google Cloud Storage。
鉴于这些任务,对于使用 Java SDK 或 Python SDK 编写作业有什么建议吗?它们之间在性能和功能方面有什么明显差异吗?
例如,我注意到对于 Java SDK,内置 I/O PTransform JdbcIO 可用。这个PTransform 在 JDBC 上读写数据,这在 Python SDK 中是不可用的(到目前为止)。是否可以仅使用 Java SDK 创建从 MySQL 数据库读取并写入 Google Cloud Storage 的管道,而其他管道使用不同的 SDK(例如 Python)?
提前感谢您的宝贵时间!
【问题讨论】:
标签: java python google-cloud-platform google-cloud-dataflow apache-beam