【发布时间】:2017-12-01 21:51:08
【问题描述】:
我有一个程序可以从远程数据库下载时间序列 (ts) 数据并将数据保存为 csv 文件。新的 ts 数据附加到旧的 ts 数据。随着更多数据的下载,我的本地文件夹继续增长和增长。下载新的 ts 数据并保存后,我想将其上传到 Google BigQuery 表。做这个的最好方式是什么?
我目前的工作流程是将所有数据下载到csv 文件,然后将csv 文件转换为我本地计算机上的gzip 文件,然后使用gsutil 上传这些@987654327 @文件到Google Cloud Storage。接下来,我删除Google BigQuery 中的所有表,然后手动创建一个新表,首先删除Google BigQuery 中的任何现有表,然后通过从Google Cloud Storage 上传数据来创建一个新表。我觉得有很大的自动化/改进空间,但我是谷歌云新手。
编辑:澄清一下,我正在下载的数据可以被认为是从雅虎财经下载时间序列数据。每一天,我都会下载新数据并将其保存到本地计算机。我必须将我必须的所有数据上传到Google BigQUery,以便我可以对其进行SQL 分析。
【问题讨论】:
-
你见过Data Transfer Service吗?我想知道这是否适合你。
标签: python pandas google-bigquery google-cloud-platform gsutil