【发布时间】:2022-12-19 16:00:36
【问题描述】:
我正在通过读取数据
glueContext.create_data_frame.from_catalog(database = "db", table_name = "ta")
来自 s3 存储桶上的镶木地板文件。
不幸的是,该存储桶似乎包含一个非 parquet 文件 (last_ingest_partition),这会导致以下错误:
An error occurred while calling o92.getDataFrame. s3://cdh/measurements/ta/last_ingest_partition is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [49, 45, 49, 50]
是否有可能排除该文件被读取? 我试过类似的东西
glueContext.create_data_frame.from_catalog(database = "db", table_name = "ta", additional_options={"exclusions" : "[\"**last_ingest_partition\""})
但这对我不起作用。
【问题讨论】: