【问题标题】:reading google bucket data in spark在火花中读取谷歌存储桶数据
【发布时间】:2017-09-12 12:51:43
【问题描述】:

我已经关注这个博客来读取存储在谷歌存储桶中的数据。 https://cloud.google.com/dataproc/docs/connectors/install-storage-connector 它运行良好。以下命令

hadoop fs -ls gs://the-bucket-you-want-to-list

给了我预期的结果。但是当我尝试使用 pyspark 读取数据时

rdd = sc.textFile("gs://crawl_tld_bucket/"),

它会抛出以下错误:

`

py4j.protocol.Py4JJavaError: An error occurred while calling o20.partitions.
: java.io.IOException: No FileSystem for scheme: gs
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:2667)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:94)
`

如何完成?

【问题讨论】:

    标签: pyspark google-cloud-platform google-cloud-storage


    【解决方案1】:

    要访问 Google Cloud Storage,您必须包含 Cloud Storage 连接器:

    spark-submit --jars /path/to/gcs/gcs-connector-latest-hadoop2.jar your-pyspark-script.py
    

    pyspark --jars /path/to/gcs/gcs-connector-latest-hadoop2.jar
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2021-03-19
      • 1970-01-01
      • 1970-01-01
      • 2021-12-23
      • 2020-07-02
      • 2020-08-11
      • 1970-01-01
      相关资源
      最近更新 更多