【问题标题】:How to search an Amazon S3 Bucket using Wildcards?如何使用通配符搜索 Amazon S3 存储桶?
【发布时间】:2015-07-10 08:36:45
【问题描述】:

This stackoverflow answer helped a lot. 但是,我想搜索给定存储桶中的所有 PDF。

  1. 我单击“无”。
  2. 开始输入。
  3. 我输入*.pdf
  4. Enter

什么都没有发生。有没有办法通过在线 S3 GUI 控制台使用通配符或正则表达式过滤存储桶搜索结果?

【问题讨论】:

    标签: amazon-web-services amazon-s3 filtering


    【解决方案1】:

    正如评论中所述,亚马逊的 UI 只能用于根据他们自己的文档按前缀搜索:

    http://docs.aws.amazon.com/AmazonS3/latest/UG/searching-for-objects-by-prefix.html

    还有其他搜索方法,但它们需要一些努力。仅举两个选项,AWS-CLI 应用程序或Boto3 用于 Python。

    我知道这篇文章很旧,但它在 Google 的 s3 搜索列表中名列前茅,并且没有公认的答案。 Harish 的另一个答案是链接到一个死网站。

    更新 2020/03/03:上面的 AWS 链接已被删除。这是一个非常相似的主题的链接,我可以找到它。 https://docs.aws.amazon.com/AmazonS3/latest/dev/ListingKeysHierarchy.html

    【讨论】:

    • 请注意,在提出问题时该文档并不存在。
    • 还要注意这个文档不再存在,并重定向到文档主页。
    • 还需要注意的是,not 允许更丰富的搜索和 only 在当前控制台页面上对项目进行排序,这使得在 S3 控制台中无法找到内容. (一定要从控制台发送 AWS 反馈。)
    【解决方案2】:

    AWS CLI 搜索: 在 AWS 控制台中,我们只能在目录中搜索对象,但不能在整个目录中搜索,也只能搜索文件的前缀名称(S3 搜索限制)。

    最好的方法是在 Linux 操作系统中使用 AWS CLI 和以下命令

    aws s3 ls s3://bucket_name/ --recursive | grep search_word | cut -c 32- 
    

    使用通配符搜索文件

    aws s3 ls s3://bucket_name/ --recursive |grep '*.pdf'
    

    【讨论】:

    • 您能解释一下这将如何帮助我找到所有 PDF 文件吗?
    • aws s3 ls s3://bucket_name/ --recursive |grep *.pdf
    • 我必须使用句点:'.*.pdf' - 见stackoverflow.com/a/1069333/12383690
    【解决方案3】:

    如果您在 Python 中使用 boto3,则很容易找到文件。将 'bucket' 替换为存储桶的名称。

    import boto3
    s3 = boto3.resource('s3')
    bucket = s3.Bucket('bucket')
    for obj in bucket.objects.all():
        if '.pdf' in obj.key:
            print(obj.key)
    

    【讨论】:

    • 令人沮丧的是他们不能做“后缀”,因为他们已经有一个前缀变量。
    【解决方案4】:

    您可以使用带有--dryrun 标志的复制功能:

    aws s3 ls s3://your-bucket/any-prefix/ .\ --recursive --exclude * --include *.pdf --dryrun
    

    它将显示所有 PDF 文件。

    【讨论】:

    • 我得到未知选项:. --递归
    • 那是因为@user2568374 有正确的想法但错误的例子。应该是:aws s3 cp s3://your-bucket/any-prefix/ . --recursive --exclude "*" --include "*.pdf" --dryrun
    • 比较 AWS 文档,aws s3 cp 似乎有一个通配符功能,就像 Yossi 在这里指出的那样,aws s3 ls 似乎没有通配符功能。
    【解决方案5】:

    我在我的一个项目中使用过它,但它有点硬编码

    import subprocess
    bucket = "Abcd"
    command = "aws s3 ls s3://"+ bucket + "/sub_dir/ | grep '.csv'"
    listofitems = subprocess.check_output(command, shell=True,)
    listofitems = listofitems.decode('utf-8')
    print([item.split(" ")[-1] for item in listofitems.split("\n")[:-1]])
    

    【讨论】:

      【解决方案6】:

      使用 Java SDK 的文档表明可以这样做:

      https://docs.aws.amazon.com/AmazonS3/latest/dev/ListingKeysHierarchy.html https://docs.aws.amazon.com/AmazonS3/latest/dev/ListingObjectKeysUsingJava.html

      特别是函数listObjectsV2Result 允许您指定前缀过滤器,例如“files/2020-01-02*”,因此您只能返回与今天日期匹配的结果。

      https://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/s3/model/ListObjectsV2Result.html

      【讨论】:

        【解决方案7】:

        我猜这些文件是从 unix 系统上传的,而您下载到 Windows,所以 s3cmd 无法保留不适用于 NTFS 的文件权限。

        要搜索文件并获取它们,请尝试从目标目录中执行此操作或将 ./ 更改为目标:

        for i in `s3cmd ls s3://bucket | grep "searchterm" | awk '{print $4}'`; do s3cmd sync --no-preserve $i ./; done
        

        这适用于 Windows 中的 WSL。

        【讨论】:

          猜你喜欢
          • 2018-06-07
          • 2015-04-17
          • 1970-01-01
          • 2012-06-27
          • 2023-03-31
          • 2016-08-25
          • 1970-01-01
          • 2021-07-26
          • 2011-01-30
          相关资源
          最近更新 更多