【发布时间】:2014-09-18 07:03:31
【问题描述】:
我需要将 BigQuery 中的 2B 条记录的大表以 csv 格式传输到 Cloud Storage。我正在使用控制台进行传输。
由于文件的大小,我需要指定一个包含 * 的 uri 来对导出进行分片。我最终在 Cloud Storage 中有 400 个 csv 文件。每个都有一个标题行。
这使得合并文件非常耗时,因为我需要将 csv 文件下载到另一台机器,去掉标题行,合并文件,然后重新上传。 FY 合并后的 csv 文件大小约为 48GB。
有没有更好的方法?
【问题讨论】:
-
这些 CSV 文件合并后如何处理?为什么上传前需要合并(为什么不能单独上传)?你真的需要标题,或者你可以在代码中假设列顺序?
标签: google-bigquery google-cloud-storage