【发布时间】:2022-01-04 13:22:41
【问题描述】:
我的路径格式为s3://my_bucket/timestamp=yyyy-mm-dd HH:MM:SS/。
例如s3://my-bucket/timestamp=2021-12-12 12:19:27/,但是 MM:SS 部分是不可预测的,我有兴趣阅读给定小时的数据。我尝试了以下方法:
df = spark.read.parquet("s3://my-bucket/timestamp=2021-12-12 12:*:*/")df = spark.read.parquet("s3://my-bucket/timestamp=2021-12-12 12:[00,01-59]:[00,01-59]/")
但他们给出了错误pyspark.sql.utils.IllegalArgumentException: java.net.URISyntaxException。
【问题讨论】:
标签: apache-spark amazon-s3 wildcard parquet