【发布时间】:2017-11-25 04:12:13
【问题描述】:
我正在对数据流批量加载进行性能基准测试,发现与 Bigquery 命令行工具上的相同加载相比,加载速度太慢了。
文件大小约为 20 MB,包含数百万条记录。我尝试了不同的机器类型并在n1-highmem-4 上获得了最佳的加载性能,加载目标 BQ 表的加载时间约为 8 分钟。
当通过在命令行实用程序上运行 BQ 命令应用相同的表加载时,处理和加载相同量的数据几乎不需要 2 分钟。 关于使用 Dataflow 作业的这种糟糕的负载性能有什么见解吗?如何提高性能使其与 BQ 命令行实用程序相媲美?
【问题讨论】:
标签: google-bigquery google-cloud-dataflow apache-beam