【发布时间】:2020-06-23 06:15:53
【问题描述】:
orig_dyf = glueContext.create_dynamic_frame.from_options(
's3',
{
"paths": [
's3://bucket/sample_data/'
],
"recurse" : True,
"exclusions" : "[\"temp/**\"]"
},
"json",
transformation_ctx = "orig_dyf")
我想从文件夹 temp 中排除文件,但这不起作用。根据https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-s3,我们应该传递一个包含 Unix 样式 glob 模式的 JSON 列表的字符串。奇怪,当我使用
"[\"**.csv\"]"
或文件后缀,它确实有效。当我尝试排除文件夹时,它不起作用并且仍然包含文件。
根据https://docs.aws.amazon.com/glue/latest/dg/define-crawler.html#crawler-data-stores-exclude
myfolder/**
预期的行为是匹配 myfolder 的所有子文件夹中的对象,例如 /myfolder/mysource/mydata 和 /myfolder/mysource/data
【问题讨论】:
标签: python amazon-web-services apache-spark pyspark aws-glue