【发布时间】:2020-12-16 13:51:58
【问题描述】:
我是机器学习新手,需要有关最佳方法的帮助。
我有一个包含数百万行和列的主数据集:
Customer first name,
last name,
SSN ,
address,
Unique cust id
输入是具有相同列的新客户详细信息。我想创建具有以下规则的机器学习模型
If new customer matches any customer on SSN then return cust ids of
matching customers
else if customer matches any customer on First +
Last name + zip then return cust ids of matching customers
else
create new cust id
另一个问题是姓名和地址可能有拼写错误,所以不能完全匹配
什么是最好的方法,什么模型可以工作
【问题讨论】:
-
欢迎您! SQL 比机器学习更适合这个问题。请参阅“不,您不需要 ML/AI。您需要 SQL”:cyberomin.github.io/startup/2018/07/01/sql-ml-ai.html
-
机器学习对这类任务没有任何帮助。听起来你想用你的数据建立一个数据库,然后根据你写下的条件查询。
-
谢谢,另一个问题是姓名和地址可能有拼写错误,所以不能完全匹配
-
不需要 ML。如果您有一个嘈杂的数据库并且您想找到类似(重复)的客户(即 John Gates 2 年前注册并将其名称拼错为 Jon Gates),ML 可能会很有用,现在他用正确的名字注册)
-
(以下编辑) 这更像是一个“模糊匹配”问题。 “概率软逻辑”可能值得研究 (psl.linqs.org)。