【发布时间】:2015-10-02 18:32:07
【问题描述】:
我有一个存储在 BigQuery 表中的大型数据集,我想将其加载到 pypark RDD 中以进行 ETL 数据处理。
我意识到 BigQuery 支持 Hadoop 输入/输出格式
https://cloud.google.com/hadoop/writing-with-bigquery-connector
并且 pyspark 应该能够使用此接口,以便通过使用“newAPIHadoopRDD”方法创建 RDD。
http://spark.apache.org/docs/latest/api/python/pyspark.html
不幸的是,两端的文档似乎很少,超出了我对 Hadoop/Spark/BigQuery 的了解。有没有人知道如何做到这一点?
【问题讨论】:
标签: apache-spark google-bigquery pyspark google-hadoop google-cloud-dataproc