【发布时间】:2021-05-18 16:58:32
【问题描述】:
所以,我有一个 S3 文件夹,其中有几个子文件夹作为分区(基于创建日期)。我有一个用于这些分区的 Glue Table,可以使用 Athena 查看数据。
运行胶水作业并尝试访问目录我收到以下错误:
HadoopDataSource: Skipping Partition {} as no new files detected @ s3:...
给我带来问题的行如下:
glueContext.getCatalogSource(database = "DB_NAME", tableName = "TABLE_NAME", redshiftTmpDir = "", transformationContext = "datasource0").getDynamicFrame().toDF()
我希望随时访问这些 S3 子文件夹中的所有数据,因为这些数据会定期更新。
我认为问题在于胶水作业书签未检测到新文件,但这不是直接作为作业的一部分运行,而是作为作业使用的库的一部分。
删除“transformationContext”或将其值更改为空无效。
【问题讨论】:
标签: scala apache-spark aws-glue aws-glue-data-catalog