【发布时间】:2021-03-13 22:49:04
【问题描述】:
我们在数据湖中有一个文件分区,并使用 Azure Synapse SQL Serverless 池在 Power BI 中可视化之前使用外部表查询它们。
文件存储在以下分区格式{source}/{year}/{month}/{filename}_{date}.parquet
然后我们有一个外部表来加载该源的所有文件。
对于每天递增的所有文件,这非常有效,因为我们希望包含所有文件。但是,我们有一些集成,我们只想返回最新文件。 (即发送给我们的最新文件是我们要加载到 Power BI 中的当前状态)。
是否可以在外部表语句中只返回最新的文件?还是我们必须添加额外的逻辑? 我们可以加载所有文件,然后过滤最新的文件名并将其保存在新位置。或者,我们可以尝试创建一个每天都在变化的外部表。
有没有更好的方法来解决这个问题?
【问题讨论】:
标签: azure external-tables azure-synapse azure-sql-data-warehouse polybase