【问题标题】:Porter Stemmer algorithm questionPorter Stemmer 算法题
【发布时间】:2011-04-01 23:55:21
【问题描述】:

我正在实现一个搜索应用程序。 语料库是大型文本文档。 在文件处理过程中,我正在标记所有单词并调用 Porter Stemmer 算法 第 1 步 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。

Step1 去掉复数和 -ed 或 -ing...

我注意到像 'this' 这样的词会变成 'thi'。

这是算法的正常操作吗? 因为我想标记“this”这个词。

【问题讨论】:

    标签: search indexing porter-stemmer


    【解决方案1】:

    根据您的描述,我的直觉是this 在 Porter Stemmer 算法中被视为复数形式,并简化为 thi

    我在 Porter 的论文中没有明确提到以 s 结尾的非复数词。

    http://tartarus.org/~martin/PorterStemmer/def.txt

    【讨论】:

    • 是的,我需要检查一下算法,看看为什么。
    猜你喜欢
    • 1970-01-01
    • 2022-01-10
    • 2013-03-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-09-22
    • 2021-12-27
    相关资源
    最近更新 更多