【发布时间】:2017-05-24 18:24:56
【问题描述】:
我不是开发人员,所以请多多包涵。我无法在Google BigQuery - Automating a Cron Job 上关注基于 PHP 的答案,所以我不知道这是否与我正在寻找的相同。
无论如何,我使用 Google Cloud 来存储数据,并且全天数次将数据上传到那里的 CSV。我使用 BigQuery 运行作业,用那里的数据填充 BigQuery 表。
由于我无法控制的原因,CSV 包含重复数据。所以我想要做的基本上是创建一个每日 ETL,将所有新数据附加到现有表中,可能每天凌晨 1 点运行:
- 识别尚未添加的新文件(例如 date = today - 1)
- 对第 1 步中的所有 CSV 运行作业,以将它们转换为临时 BigQuery 表
- 通过 SQL 对 BigQuery 表进行重复数据删除(我可以通过多种方式执行此操作)
- 将重复数据删除的临时表插入 BigQuery 表中。
- 删除临时表
所以基本上我被困在第 1 格 - 我不知道如何以自动方式执行任何这些操作。我知道 BigQuery 有一个 API,有一些 documentation on cron jobs,还有一些叫做 Cloud Dataflow,但在深入那些兔子洞之前,我希望其他人可能有这方面的经验并能给我一些提示。就像我说的,我不是开发人员,所以如果有更简单的方法来完成这件事,我会更容易运行。
感谢任何人提供的任何帮助!
【问题讨论】:
-
不知道为什么这被否决了,我正在研究 Google 的文档,但没有帮助。
标签: sql automation google-bigquery google-cloud-platform google-cloud-dataflow