【发布时间】:2019-02-09 15:39:22
【问题描述】:
a) 从有界源读取数据,在 Dataflow 中运行时 PCollection 的大小可以有多大? b) 在处理大数据时,假设大约 5000 万个 PCollection 数据试图查找另一个包含大约 1000 万个 PCollection 数据的 PCollection。可以做到吗,Beam/Dataflow 的性能如何?在 ParDo 函数中,假设我们只能传递一个输入并返回一个输出,那么如何基于 2 个输入数据集执行查找?我正在尝试查看类似于任何其他 ETL 工具的 Dataflow/Beam,在其中可以轻松查找以创建新的 PCollection。请提供任何代码 sn-ps,这可能会有所帮助。
我也看到了侧输入功能,但是侧输入真的可以容纳这么大的数据集吗,如果这样可以完成查找吗?
【问题讨论】:
标签: google-cloud-dataflow apache-beam dataflow