【发布时间】:2011-04-01 23:55:21
【问题描述】:
我正在实现一个搜索应用程序。 语料库是大型文本文档。 在文件处理过程中,我正在标记所有单词并调用 Porter Stemmer 算法 第 1 步 (http://tartarus.org/~martin/PorterStemmer/csharp2.txt)。
Step1 去掉复数和 -ed 或 -ing...
我注意到像 'this' 这样的词会变成 'thi'。
这是算法的正常操作吗? 因为我想标记“this”这个词。
【问题讨论】:
标签: search indexing porter-stemmer