【发布时间】:2014-01-16 08:59:34
【问题描述】:
我有一个(有点大)平面文件 (csv)。我正在尝试使用 SSIS 包将其导入我的 SQL Server 表中。没有什么特别的,它是一个普通的进口。问题是,超过 50% 的行是重复的。
例如数据:
Item Number | Item Name | Update Date
ITEM-01 | First Item | 1-Jan-2013
ITEM-01 | First Item | 5-Jan-2013
ITEM-24 | Another Item | 12-Mar-2012
ITEM-24 | Another Item | 13-Mar-2012
ITEM-24 | Another Item | 14-Mar-2012
现在我需要使用此数据创建我的主项目记录表,因为您可以看到由于更新日期,数据是重复的。这保证了文件将始终按项目编号排序。所以我需要做的只是检查 如果下一个项目编号 = 上一个项目编号然后不要导入这一行。
我在 SSIS 包中使用了带有删除重复项的排序,但它实际上是在尝试对所有无用的行进行排序,因为行已经排序。另外,对太多行进行排序需要很长时间。
那么还有其他方法吗?
【问题讨论】:
标签: ssis