【发布时间】:2009-12-03 14:53:11
【问题描述】:
假设我想将地址记录(或人名或其他)相互匹配,以合并最有可能引用同一地址的记录。基本上,我想我想计算文本值之间的某种相关性,并在该值超过某个阈值时合并记录。
示例: “West Lawnmower Drive 54 A”可能与“W. Lawn Mower Dr. 54A”相同,但与“East Lawnmower Drive 54 A”不同。
您将如何解决这个问题?是否有必要拥有某种基于上下文的字典,在地址情况下知道“W”、“W”。和“西”是一样的吗?拼写错误(“mover”而不是“mower”等)呢?
我认为这是一个棘手的问题 - 也许有一些众所周知的算法?
【问题讨论】: