【问题标题】:pyspark List subfolder of a folder in s3 bucketpyspark 列出 s3 存储桶中文件夹的子文件夹
【发布时间】:2018-04-19 19:45:12
【问题描述】:

我有一个s3 存储桶,我在其中存储要由我的 pyspark 代码处理的数据文件。 我要访问的文件夹是:

s3a://bucket_name/data/

此文件夹包含文件夹。我的目标是访问此目录中最后添加的文件夹的内容。 由于某些原因,我不想使用 boto。 有什么方法可以访问文件夹列表,所以我可以选择我想访问的文件夹。 如果我指定文件夹,我可以访问文件,但我想让它动态化。

【问题讨论】:

    标签: dataframe amazon-s3 pyspark s3-bucket


    【解决方案1】:

    我建议使用 s3fs,它是 boto3 上的文件系统样式包装器。文档在这里:http://s3fs.readthedocs.io/en/latest/

    这是您关心的部分(您可能必须传入或以其他方式配置您的 AWS 凭证):

    import s3fs
    fs = s3fs.S3FileSystem(anon=True)
    fs.ls('my-bucket')
    

    【讨论】:

    • 谢谢,效果很好。如果您在 EMR 集群上运行它,请将 pip install s3fs 添加到您的 bash 引导脚本中,您可能会在您的代码或 EMR 笔记本中使用 s3fs.S3FileSystem(anon=False)
    猜你喜欢
    • 2013-01-17
    • 1970-01-01
    • 2016-10-29
    • 1970-01-01
    • 1970-01-01
    • 2023-01-20
    • 2020-10-28
    • 1970-01-01
    • 2015-05-20
    相关资源
    最近更新 更多