【发布时间】:2020-10-24 17:25:57
【问题描述】:
针对基于 AKS 的 SQL Server 2019 BDC,我加载了 Flight_delay 数据集,该数据集位于 www.kaggle.com。我想测试各种数据存储的性能,即主实例、数据池、HDFS 存储池和 ADLS 存储池(通过 HDFS 分层)。
针对池 - 数据池、HDFS 存储池和 ADLS 存储池 - 我创建了要访问的外部表,如下面的脚本所示。
Select Count(*)
From [dbo].[Master_Flights] F
Inner join [dbo].[Master_Airports] A on F.ORIGIN_AIRPORT = A.IATA_CODE
Inner join [dbo].[Master_Airlines] L on F.AIRLINE = L.IATA_CODE
GO
Select Count(*)
From [dbo].[DataPool_Flights] F
Inner join [dbo].[DataPool_Airports] A on F.ORIGIN_AIRPORT = A.IATA_CODE
Inner join [dbo].[DataPool_Airlines] L on F.AIRLINE = L.IATA_CODE
GO
Select Count(*)
From [dbo].[HDFS_StoragePool_Flights] F
Inner join [dbo].[HDFS_StoragePool_Airports] A on F.ORIGIN_AIRPORT = A.IATA_CODE
Inner join [dbo].[HDFS_StoragePool_Airlines] L on F.AIRLINE = L.IATA_CODE
GO
Select Count(*)
From [dbo].[adls_StoragePool_Flights] F
Inner join [dbo].[adls_StoragePool_Airports] A on F.ORIGIN_AIRPORT = A.IATA_CODE
Inner join [dbo].[adls_StoragePool_Airlines] L on F.AIRLINE = L.IATA_CODE
GO
从“最好到最差”的表现:
- 主实例 - 2 秒
- 数据池 - 16 秒
- HDFS 存储池 - 90 秒
- ADLS-存储池 - 220 秒
我的测试结果是否符合预期?我希望至少可以为数据池选项获得相当好的性能结果。
如果池中的表的性能如此糟糕,为什么有人要使用它们?
谢谢, 格拉吉
【问题讨论】:
标签: tsql hdfs query-performance webhdfs sql-server-2019