【发布时间】:2016-09-14 07:20:26
【问题描述】:
我有一个包含地址、姓名、IBAN、电子邮件等值的电子表格,我想确定客户上次购买商品的时间。
问题是:有些字段包含拼写错误,有些是故意输入错误的。
在 GitHub 上,https://github.com/seatgeek/fuzzywuzzy、https://github.com/seamusabshere/fuzzy_match 或 https://github.com/atom/fuzzaldrin 等多个库可用于基于单个可比较的列执行模糊搜索。但我想结合多个领域——这听起来像是一个常见的问题,我希望在那里找到现有的解决方案。
您能推荐解决此类问题的方法吗?是否有针对我缺少的此类问题的现有项目? 所有字段的常规字符串距离通常足够好吗?
【问题讨论】:
标签: uniqueidentifier fingerprint fuzzy-search fuzzy-comparison