【发布时间】:2019-04-06 18:14:20
【问题描述】:
我所在的组织需要使用 Spark 从我们客户的一个 bigquery 数据集中提取数据,鉴于客户和我们都使用 GCP,因此使用 Dataproc 来实现这一点很有意义。
我已经阅读了Use the BigQuery connector with Spark,它看起来非常有用,但它似乎假设 dataproc 集群、bigquery 数据集和用于临时 BigQuery 导出的存储桶都在同一个 GCP 项目中 - 对于我。
我有一个服务帐户密钥文件,它允许我连接到存储在 bigquery 中的客户数据并与之交互,我如何将该服务帐户密钥文件与 BigQuery 连接器和 dataproc 结合使用,以便从 bigquery 中提取数据并在 dataproc 中与之交互?换句话说,如何修改Use the BigQuery connector with Spark提供的代码以使用我的服务帐户密钥文件?
【问题讨论】: