【发布时间】:2021-12-28 01:18:25
【问题描述】:
我正在寻找一种从 S3 读取一堆文件的方法,但路径可能不存在。我只想忽略路径不存在的事实,并处理所有可能的信息。我想在文件中读取的示例:
files_to_read = []
for id in ids_to_process:
for date in dates_to_process:
files_to_read.append('s3://bucket/date=' + date + '/id=' + id + '/*.parquet')
sqlContext.read.parquet(*files_to_read)
问题是某些 id 可能直到某个日期才开始,虽然我可以弄清楚,以编程方式执行它并不容易。最简单的方法是 a) 如果路径不存在,则忽略文件。 b) 检查路径是否存在。
我尝试过sqlContext.sql("spark.sql.files.ignoreMissingFiles=true"),但似乎不起作用。我会错过任何类似的选择吗?
【问题讨论】:
标签: apache-spark amazon-s3 pyspark apache-spark-sql