瓶颈可能不在在您认为的位置。它可能是降低包性能的目标组件。包转换等到批处理数据插入目标。这使我们相信以黄色显示的转换正在缓慢执行。实际上,就我的经验而言,查找转换任务非常快。
以下示例从平面文件源读取 100 万行并插入 SQL Server。尽管它只使用一个查找,但我在此处提供示例的原因是为了让您了解拥有多个目标组件。拥有多个目的地来接受各种转换处理的数据将加快打包速度。
我希望这个示例能让您了解如何提高包的性能。
分步过程:
在 SQL Server 数据库中,创建两个表,即dbo.ItemInfo 和dbo.Staging。 脚本部分下提供了创建表查询。这些表的结构显示在屏幕截图 #1 中。 ItemInfo 将保存实际数据,Staging 表将保存暂存数据以比较和更新实际记录。这两个表中的Id 列是自动生成的唯一标识列。表ItemInfo 中的IsProcessed 列将用于识别和删除不再有效的记录。
创建一个 SSIS 包并创建 5 个变量,如屏幕截图 #2 所示。我为制表符分隔的文件使用了.txt 扩展名,因此变量FileExtension 中的值*.txt。 FilePath 变量将在运行时赋值。 FolderLocation 变量表示文件的位置。 SQLPostLoad 和 SQLPreLoad 变量表示在预加载和加载后操作期间使用的存储过程。 脚本部分提供了这些存储过程的脚本。
创建一个指向 SQL Server 数据库的 OLE DB 连接。创建一个平面文件连接,如屏幕截图 #3 和 #4 所示。 平面文件连接列部分包含列级信息。屏幕截图 #5 显示了列数据预览。
如屏幕截图 #6 所示配置控制流任务。配置任务Pre Load、Post Load 和Loop Files,如屏幕截图#7 - #10 所示。 Pre Load 将截断 staging 表并将 ItemInfo 表中的所有行的 IsProcessed 标志设置为 false。 Post Load 将更新更改并删除数据库中未在文件中找到的行。请参阅这些任务中使用的存储过程,以了解这些 Execute SQL 任务中正在执行的操作。
双击 Load Items 数据流任务并按照屏幕截图 #11 所示进行配置。 Read File 是配置为使用平面文件连接的平面文件源。 Row Count 是派生列转换,其配置显示在屏幕截图 #12 中。 Check Exist 是一个查找转换,其配置显示在屏幕截图 #13 - #15 中。 查找不匹配输出被重定向到左侧的Destination Split。 查找匹配输出被重定向到左侧的Staging Split。 Destination Split 和 Staging Split 具有完全相同的配置,如屏幕截图 #16 所示。目的地和临时表有 9 个不同目的地的原因是为了提高包的性能。
所有目标任务 0 - 8 都配置为将数据插入表 dbo.ItemInfo,如屏幕截图 #17 所示。如屏幕截图 #18 所示,所有暂存任务 0 - 8 都配置为将数据插入到 dbo.Staging。
在平面文件连接管理器上,将 ConnectionString 属性设置为使用变量 FilePath,如屏幕截图 #19 所示。这将使包在遍历文件夹中的每个文件时能够使用变量中设置的值。
测试场景:
Test results may vary from machine to machine.
In this scenario, file was located locally on the machine.
Files on network might perform slower.
This is provided just to give you an idea.
So, please take these results with grain of salt.
程序包在 64 位计算机上执行,具有 Xeon 单核 CPU 2.5GHz 和 3.00 GB RAM。
加载了带有1 million rows 的平面文件。包在大约 2 分 47 秒内执行。请参阅截图 #20 和 #21。
使用测试查询部分下提供的查询来修改数据,以在包的第二次运行期间模拟更新、删除和创建新记录。
在数据库中执行以下查询后,加载了包含1 million rows 的同一文件。包在大约 1 分 35 秒内执行。请参阅屏幕截图 #22 和 #23。请注意屏幕截图 #22 中重定向到目标和暂存表的行数。
希望对您有所帮助。
测试查询:
.
--These records will be deleted during next run
--because item ids won't match with file data.
--(111111 row(s) affected)
UPDATE dbo.ItemInfo SET ItemId = 'DEL_' + ItemId WHERE Id % 9 IN (3)
--These records will be modified to their original item type of 'General'
--because that is the data present in the file.
--(222222 row(s) affected)
UPDATE dbo.ItemInfo SET ItemType = 'Testing' + ItemId WHERE Id % 9 IN (2,6)
--These records will be reloaded into the table from the file.
--(111111 row(s) affected)
DELETE FROM dbo.ItemInfo WHERE Id % 9 IN (5,9)
平面文件连接列
.
Name InputColumnWidth DataType OutputColumnWidth
---------- ---------------- --------------- -----------------
Id 8 string [DT_STR] 8
ItemId 11 string [DT_STR] 11
ItemName 21 string [DT_STR] 21
ItemType 9 string [DT_STR] 9
脚本: (用于创建表和存储过程)
.
CREATE TABLE [dbo].[ItemInfo](
[Id] [int] IDENTITY(1,1) NOT NULL,
[ItemId] [varchar](255) NOT NULL,
[ItemName] [varchar](255) NOT NULL,
[ItemType] [varchar](255) NOT NULL,
[IsProcessed] [bit] NULL,
CONSTRAINT [PK_ItemInfo] PRIMARY KEY CLUSTERED ([Id] ASC),
CONSTRAINT [UK_ItemInfo_ItemId] UNIQUE NONCLUSTERED ([ItemId] ASC)) ON [PRIMARY]
GO
CREATE TABLE [dbo].[Staging](
[Id] [int] IDENTITY(1,1) NOT NULL,
[ItemId] [varchar](255) NOT NULL,
[ItemName] [varchar](255) NOT NULL,
[ItemType] [varchar](255) NOT NULL,
CONSTRAINT [PK_Staging] PRIMARY KEY CLUSTERED ([Id] ASC)) ON [PRIMARY]
GO
CREATE PROCEDURE [dbo].[PostLoad]
AS
BEGIN
SET NOCOUNT ON;
UPDATE ITM
SET ITM.ItemName = STG.ItemName
, ITM.ItemType = STG.ItemType
, ITM.IsProcessed = 1
FROM dbo.ItemInfo ITM
INNER JOIN dbo.Staging STG
ON ITM.ItemId = STG.ItemId;
DELETE FROM dbo.ItemInfo
WHERE IsProcessed = 0;
END
GO
CREATE PROCEDURE [dbo].[PreLoad]
AS
BEGIN
SET NOCOUNT ON;
TRUNCATE TABLE dbo.Staging;
UPDATE dbo.ItemInfo
SET IsProcessed = 0;
END
GO
屏幕截图 #1:
屏幕截图 #2:
截图#3:
屏幕截图 #4:
屏幕截图 #5:
屏幕截图 #6:
截图#7:
截图#8:
屏幕截图 #9:
屏幕截图 #10:
屏幕截图 #11:
屏幕截图 #12:
屏幕截图 #13:
屏幕截图 #14:
屏幕截图 #15:
屏幕截图 #16:
屏幕截图 #17:
屏幕截图 #18:
屏幕截图 #19:
屏幕截图 #20:
屏幕截图 #21:
屏幕截图 #22:
屏幕截图 #23: