【发布时间】:2014-05-09 12:13:09
【问题描述】:
我正在执行数据清理,我的任务之一是删除类似的重复联系人。
示例:
BILL CROSBIE, BILL CROSBY, BILL CROSSBY; or KRISTEN HARRIS, KRISTIN HARIS.
因此,没有确切的规则,但是通过手动扫描,我可以看出它们非常相似,并且必须是重复的。
谁能提供我如何使用 SSIS 做到这一点的示例。
我知道我可以使用模糊查找,但它需要一个正确的参考表或参考数据,然后与需要数据清理的表进行比较。但是,是否有可能我可以使用 SSIS 中的脚本组件工具来使用获取最匹配字符的算法。那个 C# 代码会是什么样子?
我是使用 SSIS 的新手,没有太多经验。或者是否有某种我可以在 MSSQL 中创建的脚本可以做到这一点?
【问题讨论】:
-
您可以使用 SOUNDEX 找到重复值(不是最好的方法,但在您的非常小的样本中效果很好),但是您如何知道要保留哪个重复项以及要删除哪个重复项?跨度>
标签: sql sql-server ssis