【发布时间】:2018-05-14 21:37:42
【问题描述】:
没有关于如何将 pCollections 转换为输入 .CoGroupByKey() 所需的 pCollections 的文档
上下文 本质上,我有两个大的 pCollections,我需要能够找到两者之间的差异,用于 II 型 ETL 更改(如果它在 pColl1 中不存在,则添加到 pColl2 中找到的嵌套字段),以便我能够保留 BigQuery 中这些记录的历史记录。
管道架构:
- 将 BQ 表读入 2 个 pCollections:dwsku 和 product。
- 对两个集合应用 CoGroupByKey() 以返回 --> 结果
- 解析结果以查找 dwsku 中的所有更改并将其嵌套到产品中。
我们会推荐任何帮助。我在 SO 上找到了一个 java 链接,它完成了我需要完成的同样的事情(但 Python SDK 上没有任何内容)。
Convert from PCollection<TableRow> to PCollection<KV<K,V>>
是否有针对 Apache Beam,尤其是 Python SDK 的文档/支持?
【问题讨论】:
标签: python-3.x google-cloud-dataflow apache-beam dataflow