【发布时间】:2019-05-13 21:40:30
【问题描述】:
这个问题与我的特定用例在 Google Cloud Platform 上的合适架构有关。
我有一堆 .yaml 文件,我想在使用 Google Cloud Platform 的产品时运行 SQL 查询。这些文件的总大小不会超过 30MB,每个文件平均约为 50KB。新文件也不会很频繁地添加 - 大约每年 2-3 次。
我在想我可以设计一个架构,将所有这些文件都保存在 Cloud Storage 上,我运行 Dataflow 管道/Cloud Functions 将这些 .yaml 文件转换为 .json,然后将它们导入 BigQuery 以运行 SQL 查询.
什么似乎是合适的方法?完全使用 Dataflow 或 Cloud Functions 进行预处理或其他什么?
我对 Python 也很满意,所以我会寻找一种包含它的解决方案。例如,Dataflow 有一个 Python SDK。
【问题讨论】:
-
为什么投反对票?
-
必须是 SQL,还是可以在 Node 或 Python 中进行简单的文本搜索?
标签: google-cloud-platform google-bigquery google-cloud-functions google-cloud-dataflow