【发布时间】:2015-05-13 09:16:59
【问题描述】:
我一直在试验斯坦福 NLP 工具包及其词形还原功能。我很惊讶它是如何将某些单词词形还原的。例如:
depressing -> depressing
depressed -> depressed
depresses -> depress
它无法将depressing 和depressed 转换为相同的引理。 confusing 和 confused、hopelessly 和 hopeless 也会发生类似情况。我感觉它唯一能做的就是删除s,如果这个词是这样的形式(例如feels -> feel)。这种行为对于英语中的 Lematizatiors 来说是否正常?我希望他们能够将常见单词的此类变体转换为相同的引理。
如果这是正常的,我应该使用词干分析器吗?而且,有没有办法在 StanfordNLP 中使用像 Porter(Snowball 等)这样的词干分析器?他们的文档中没有提到词干分析器;但是,API 中有一些 CoreAnnotations.StemAnnotation。如果无法使用 StanfordNLP,您推荐在 Java 中使用哪些词干分析器?
【问题讨论】:
标签: java nlp stanford-nlp stemming lemmatization