【问题标题】:Lesser known string similarity metrics鲜为人知的字符串相似度指标
【发布时间】:2009-07-31 04:06:57
【问题描述】:

这可能是一个很难回答的问题,但我正在研究一些东西,我想知道是否有人知道“鲜为人知”的字符串相似度指标(有关知名指标的示例,请参阅 this page)。我去过维基百科,Sourceforge 有一个不错的库,名为Simmetricsa bunch of string metric algorithms。有没有人做过一些研究或发现一些引起你注意的字符串算法用处不大?

谢谢。

【问题讨论】:

    标签: algorithm language-agnostic string


    【解决方案1】:

    这个page (LingPipe) 提供了一些关于字符串比较的技巧。它谈到了 Damerau-Levenstein 距离、Needlman-Wunsch 算法、Jaccard 距离、Jaro-Winkler 距离、TF/IDF 距离。距离被理解为两个字符串之间的相似度。

    在页面末尾,它提供了参考,还提供了一个可供使用的 Java 实现 (download & license)

    【讨论】:

      【解决方案2】:

      还有一类语音算法(例如Soundex)可能会添加到您的列表中。

      【讨论】:

        【解决方案3】:

        查看http://us.php.net/manual/en/function.levenshtein.php 包括所有“See Also”引用和所有用户 cmets。

        【讨论】:

          【解决方案4】:

          SpSim(拼写相似度)是一种字符串相似度度量,旨在识别跨语言的同源词(具有相同来源的单词)。

          【讨论】:

            猜你喜欢
            • 2017-07-21
            • 2011-12-10
            • 2013-02-24
            • 2011-04-04
            • 2016-07-15
            • 1970-01-01
            • 1970-01-01
            • 2011-10-20
            • 2012-07-25
            相关资源
            最近更新 更多