【问题标题】:How to combine TF-IDF with edit distance or Jaro-winkler distance如何将 TF-IDF 与编辑距离或 Jaro-winkler 距离相结合
【发布时间】:2013-04-05 08:24:50
【问题描述】:

我正在寻找方法来提高 TF-IDF 称重方案在字符串匹配(相似性)中的准确性。主要问题是 TF-IDF 对 stings 中的拼写错误很敏感,并且大多数大型数据集往往有拼写错误。 我意识到编辑距离的变体(基于字符的相似性度量——levienshtein、仿射气体、Jaro 和 Jaro-winkler)适用于计算存在印刷错误的字符串之间的相似性,但不适用于单词乱序的情况字符串。

因此我想使用编辑距离校正功能来提高 TF-IDF 的准确性。

我们将不胜感激有关如何应对这一挑战的任何想法。

提前致谢。

【问题讨论】:

标签: edit classification similarity tf-idf


【解决方案1】:

CMU 研究人员在 2003 年发表了一篇论文,他们解释了如何将 TFIDF 与 Jaro-Winkler 结合起来: https://www.cs.cmu.edu/~pradeepr/papers/ijcai03.pdf

他们的 Java 代码也可以作为 secondString 项目在 sourceforge 上找到: https://sourceforge.net/projects/secondstring/

这里是 Javadocs 的链接: http://secondstring.sourceforge.net/javadoc/

secondString 项目页面: http://secondstring.sourceforge.net/

【讨论】:

    猜你喜欢
    • 2019-07-20
    • 1970-01-01
    • 1970-01-01
    • 2021-12-05
    • 1970-01-01
    • 1970-01-01
    • 2016-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多