【发布时间】:2011-04-05 21:00:55
【问题描述】:
有一个 ruby 词干分析器 https://github.com/aurelian/ruby-stemmer,但它 1) 不能词干英语不规则动词 2) 无法在 Windows 上构建原生扩展。是否有替代方案至少可以解决其中一个问题?
【问题讨论】:
-
为什么?您是否将其用于机器学习?是否有一些研究表明它会有所帮助?
有一个 ruby 词干分析器 https://github.com/aurelian/ruby-stemmer,但它 1) 不能词干英语不规则动词 2) 无法在 Windows 上构建原生扩展。是否有替代方案至少可以解决其中一个问题?
【问题讨论】:
我认为您应该搜索词形还原器(它具有关于形态学的信息并且可以处理不规则单词)而不是词干分析器(通常只是切断单词的结尾)。请参阅 Manning、Raghavan 和 Schütze 的信息检索在线书籍中的 this explanation。
我还没有尝试过,但快速搜索了一下,发现了这个用于 Ruby 的英文词形还原器:elemma。
可以进行词形还原的常用(非Ruby)英语形态分析器是morpha。
【讨论】:
没有一个词干分析器能够处理英语中的不规则动词。
【讨论】:
我在搜索基于 ruby 的 NLP http://mendicantbug.com/2009/09/13/nlp-resources-for-ruby/时发现了这个
【讨论】: