【发布时间】:2010-12-12 11:28:22
【问题描述】:
我正在寻找一个类或方法,它需要包含 100 多个单词的长字符串并进行标记、删除停用词和词干以用于 IR 系统。
例如:
“大肥猫,对袋鼠说‘我认识的最有趣的人’……”
分词器将删除标点符号并返回一个 ArrayList 的单词
停用词删除器会删除“the”、“to”等词
词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣
非常感谢。
【问题讨论】:
标签: java tokenize stemming stop-words