【发布时间】:2018-04-23 11:34:52
【问题描述】:
我正在考虑在原始文本上使用单词 n-gram 技术。但我有一个疑问:
在文本上应用引理/词干后使用单词 n-gram 是否有意义?如果不是,为什么我应该只在原始文件上使用单词 n-gram?有什么优缺点?
【问题讨论】:
-
你问的是字符 n-gram 吗? (例如 food -> "
")还是关于单词 n-gram? (例如“词干原文”->“词干原文”、“原文”。) -
忘记了。我说的是单词 n-gram。谢谢。
标签: information-retrieval n-gram text-analysis stemming lemmatization