【问题标题】:why does Porter Stemmer yield a string which can be stemmed again?为什么 Porter Stemmer 会产生一个可以再次词干的字符串?
【发布时间】:2009-09-01 22:37:39
【问题描述】:

茎('苹果')='苹果'
茎('苹果')='应用'
词干('appl')='appl'

这不是词干算法的缺陷吗?

(这里使用的是Porter Stemming Algorithm

【问题讨论】:

    标签: stemming porter-stemmer


    【解决方案1】:

    这看起来更像是您正在使用的算法的实现中的一个错误。

    当我按照the original algorithm(来自您链接到的页面)中的步骤操作时,“apples”中的最后一个“s”在步骤 1a 中被删除,而“e”在步骤 5a 中被删除,所以“ apples”也是“appl”。

    【讨论】:

      【解决方案2】:

      我在http://preciselyconcise.com/apis_and_installations/smart_stemmer.php 找到了一个带有字典支持的搬运工词干算法实现。

      这个 API 使用起来非常简单,并且可以纠正词干的拼写错误。我建议你使用这个词干分析器,因为这个 API 有一个词干词的自动更正选项。

      【讨论】:

        猜你喜欢
        • 2021-12-27
        • 1970-01-01
        • 2016-12-30
        • 2013-03-03
        • 1970-01-01
        • 1970-01-01
        • 2011-11-11
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多