【发布时间】:2015-10-13 10:37:52
【问题描述】:
我有六个 PCollection 作为 KV。我想通过将组合的 (6) PCollection 作为 sideInput 对另一个 PCollection 执行 ParDo。
我尝试将所有 6 个 PCollection 作为单独的 sideInput 提供,如下所示
PCollection<TableRow> OutputRows = MyCollection.apply(ParDo.withSideInputs(Inp1, Inp2,...)
.of(new DoFn<KV<String, String>, TableRow>() {
...
}
但是当堆空间超过时它会抛出 OutOfMemoryError 。请就如何组合 PCollection 以作为另一个 PCollection 的输入提供建议。
【问题讨论】:
标签: google-cloud-platform google-cloud-dataflow