【问题标题】:Matching "fuzzy" data based on several inputs基于多个输入匹配“模糊”数据
【发布时间】:2011-02-19 16:37:33
【问题描述】:

我有一个搜索和匹配问题:

输入

在我的数据库中,除了一些其他匹配特征之外,我还有数千个名称:几列数字数据和几列有助于识别该特定公司的其他文本。

一个潜在客户有大约 500 个公司名称,然后为每个名称添加了上面提到的其他特征。

当前进程

过去,这个过程是手动的,尝试通过搜索数据库来匹配客户给出的每个名称,找到一个“喜欢”给我报告的名称,然后验证附加特征是否匹配向上。但是,主要问题是报告的名称不一样,通常可能包含缩写或仅包含存储在我的数据库中的部分名称,并且附加特征也可能不完整或仅部分匹配。

自动化

我想自动化这个过程,因为它经常发生。最佳解决方案是从客户列表中输入一家公司以及他们为其填写的任何其他特征,然后尝试在我的数据库中找到前 5 个匹配项。

我从未使用过 Lucene 或 Sphinx,但它们似乎更受文档驱动。有没有办法格式化这些输入,以便这些库可以解决这个问题,或者,有哪些其他软件工具可以工作?

【问题讨论】:

    标签: search record-linkage


    【解决方案1】:

    对于 Lucene,“文档”可以很容易地成为表格中的一行,我想您会喜欢模糊~搜索和搜索命中评分功能。

    【讨论】:

      猜你喜欢
      • 2020-07-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-08-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多