【问题标题】:Why stemDocument change an ending 'y' to 'i'? How to stop it?为什么stemDocument将结尾'y'更改为'i'?如何阻止它?
【发布时间】:2016-04-04 00:45:32
【问题描述】:

在 R 中使用 stemDocument{SnowBallC} 时,我发现它会将单词末尾的字母“y”更改为字母“i”,例如:

> stemDocument('sleepy', language='english')
[1] "sleepi"

我想知道如何在词干中防止这种情况发生?

谢谢, 明

【问题讨论】:

    标签: r nlp tm


    【解决方案1】:

    hunspell 包有更好的词干分析器:

    > library(hunspell)
    > hunspell_stem("sleepy", dict = "en_US")
    [[1]]
    [1] "sleepy"
    
    > hunspell_analyze("sleepy", dict = "en_US")
    [[1]]
    [1] " st:sleepy"
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2014-09-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-05-14
      • 1970-01-01
      相关资源
      最近更新 更多