【问题标题】:Fuzzy identity fingerprinting模糊身份指纹识别
【发布时间】:2016-09-14 07:20:26
【问题描述】:

我有一个包含地址、姓名、IBAN、电子邮件等值的电子表格,我想确定客户上次购买商品的时间。

问题是:有些字段包含拼写错误,有些是故意输入错误的。

在 GitHub 上,https://github.com/seatgeek/fuzzywuzzyhttps://github.com/seamusabshere/fuzzy_matchhttps://github.com/atom/fuzzaldrin 等多个库可用于基于单个可比较的列执行模糊搜索。但我想结合多个领域——这听起来像是一个常见的问题,我希望在那里找到现有的解决方案。

您能推荐解决此类问题的方法吗?是否有针对我缺少的此类问题的现有项目? 所有字段的常规字符串距离通常足够好吗?

【问题讨论】:

    标签: uniqueidentifier fingerprint fuzzy-search fuzzy-comparison


    【解决方案1】:

    我在你的另一个问题中提到了它,但是 dedupe python library does what you want

    基本上,它计算一对行中每个字段之间的距离,然后学习最佳权重以将这些距离组合成一个记录对分数。

    【讨论】:

      【解决方案2】:

      到目前为止,我相信http://blog.yhat.com/posts/fuzzy-matching-with-yhat.html 并且使用fuzzyWuzzy 似乎是最好的方法。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2010-12-31
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2010-11-08
        • 2023-04-02
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多