【发布时间】:2019-02-18 05:16:51
【问题描述】:
我正在研究 Google Dataflow,它从 pubsub 中提取数据,转换为 avro,然后将它们写入 GCS。 根据监控页面,瓶颈是将 avro 文件写入 GCS(花费总执行时间的 70-80%)。
我用
- n1-standard-8 的 10 名工人
- 10 numShards
- 5 秒固定窗口
- GCS 和 Dataflow 端点的区域相同。
那么性能大约是每秒 200,000 个元素。 在这种情况下它是否很快,或者我能做些什么来让它更快? (我真的很想!)
谢谢
【问题讨论】:
标签: java apache-beam dataflow