【问题标题】:How to access the AWS public dataset using Databrick?如何使用 Databrick 访问 AWS 公共数据集?
【发布时间】:2021-01-26 04:25:57
【问题描述】:

我是数据块的新手。我正在为我的学校项目寻找公共大数据数据集,然后我在这个链接上遇到了 AWS 公共数据集:https://registry.opendata.aws/target/

我在 Databricks 上使用 python,但我不知道如何建立与数据的连接。我找到了以下如何指导:

https://databricks.com/wp-content/uploads/2015/08/Databricks-how-to-data-import.pdf?_ga=2.25033139.881714623.1602433762-982722630.1598480448

提到了

我不知道如何找到各自的 access_key、secret_key、AWS_bucket_name 和 mount_name。

【问题讨论】:

    标签: apache-spark dataset databricks aws-databricks


    【解决方案1】:

    本文档适用于非公共 S3 存储桶。

    对于这个数据集,您可以使用s3://... URL 轻松读取,如下所示:

    df = spark.read.format("text").load("s3://gdc-target-phs000218-2-open/")
    

    我只是以text 文件格式为例,但由于此数据集使用XML 来存储数据,因此您需要使用spark-xml library 之类的东西来提取必要的数据。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2013-05-15
      • 2021-08-31
      • 1970-01-01
      • 1970-01-01
      • 2017-06-30
      • 1970-01-01
      • 2012-02-17
      相关资源
      最近更新 更多