【发布时间】:2021-10-27 00:35:54
【问题描述】:
我正在清理客户表。客户表接收来自 4 个不同来源的数据,并且有许多重复记录。我正在使用规则组合来识别类似的客户记录。我的规则是:
- 他们有相同的名字、姓氏、电子邮件和手机
- 他们有相似的姓氏、手机和电子邮件
- 他们有相似的名字、姓氏和电子邮件。
我想为他们分配一个新的 unique_id,如下面的输出:
这是表格和数据的代码:
CREATE TABLE dbo.customer(
customer_id int,
first_name varchar(100),
last_name varchar(100),
email varchar(100),
mobile varchar(20),
unique_id int)
GO
INSERT INTO dbo.customer(customer_id, first_name, last_name, email, mobile)
values (5475872,'','SMITH','john.smith@fakeemail.com','123456'),
(623073,'JOHN','SMITH','john.smith@fakeemail.com','123456'),
(1286681,'JOHN','SMITH','john.smith@fakeemail.com','123456'),
(1303103,'JOHN','SMITH','john.smith@fakeemail.com','123456'),
(7063902,'JOHN','SMITH','john.smith@fakeemail.com','987654'),
(1808155,'JOHN','SMITH','john.smith@fakeemail.com','123456'),
(2151985,'','SMITH','john.smith@fakeemail.com','123456'),
(7221764,'JOHN','SMITH','john.smith@fakeemail.com','987654'),
(1870704,'JOHN','','john.smith@fakeemail.com','123456'),
(887842,'BILL','GATES','bill@microsoft.com','555555'),
(736363,'','GATES','bill@microsoft.com','555555')
GO
谁能帮助我了解如何根据不同的组合生成 unique_id 列?
谢谢
【问题讨论】:
-
根据问题指南,请展示您的尝试并告诉我们您发现了什么(在本网站或其他地方)以及为什么它不能满足您的需求。
-
您尝试做的最困难的部分是定义“相似”的含义
标签: sql-server tsql ssis