【发布时间】:2016-04-04 00:45:32
【问题描述】:
在 R 中使用 stemDocument{SnowBallC} 时,我发现它会将单词末尾的字母“y”更改为字母“i”,例如:
> stemDocument('sleepy', language='english')
[1] "sleepi"
我想知道如何在词干中防止这种情况发生?
谢谢, 明
【问题讨论】:
在 R 中使用 stemDocument{SnowBallC} 时,我发现它会将单词末尾的字母“y”更改为字母“i”,例如:
> stemDocument('sleepy', language='english')
[1] "sleepi"
我想知道如何在词干中防止这种情况发生?
谢谢, 明
【问题讨论】:
hunspell 包有更好的词干分析器:
> library(hunspell)
> hunspell_stem("sleepy", dict = "en_US")
[[1]]
[1] "sleepy"
> hunspell_analyze("sleepy", dict = "en_US")
[[1]]
[1] " st:sleepy"
【讨论】: