在原始文本上或在引理/词干处理之后计算单词 n-gram？答案

【问题标题】：Compute word n-grams on original text or after lemma/stemming process?在原始文本上或在引理/词干处理之后计算单词 n-gram？
【发布时间】：2018-04-23 11:34:52
【问题描述】：

我正在考虑在原始文本上使用单词 n-gram 技术。但我有一个疑问：

在文本上应用引理/词干后使用单词 n-gram 是否有意义？如果不是，为什么我应该只在原始文件上使用单词 n-gram？有什么优缺点？

【问题讨论】：

你问的是字符 n-gram 吗？（例如 food -> ""）还是关于单词 n-gram？（例如“词干原文”->“词干原文”、“原文”。）
忘记了。我说的是单词 n-gram。谢谢。

标签： information-retrieval n-gram text-analysis stemming lemmatization

【解决方案1】：

在词形还原或词干提取之后计算单词 n-gram 的原因与您在词干提取之前想要的原因相同。有时这会给您带来误报，例如 (D3)，但它通常会以您想要这样做的有意义的方式增加召回率。

在某些领域，例如短文本，词干提取可能会造成伤害。最好的办法是进行测试，但总的来说，我会建议词干提取和大小写折叠，但这实际上取决于您的域和查询。

Q="犯罪记录"

D1 = "...有一个criminal 记录 ..."（匹配词干）
D2 = "...公布了罪犯记录 ..."（正常匹配）
D3 = "...在制作'Smooth Criminal'时，录音 ..."（词干上的错误匹配）

这是一个精确度/召回率的权衡。您可以（总是）通过词干提取来增加召回率，并且可以通过不进行词干提取来提高精度。但这取决于您所服务的查询类型。例如，如果您正在运行代码搜索，您几乎不想进行词干或预处理，因为用户希望输入准确的符号名称然后找到它们。

【讨论】：