【问题标题】:Compute word n-grams on original text or after lemma/stemming process?在原始文本上或在引理/词干处理之后计算单词 n-gram?
【发布时间】:2018-04-23 11:34:52
【问题描述】:

我正在考虑在原始文本上使用单词 n-gram 技术。但我有一个疑问:

在文本上应用引理/词干后使用单词 n-gram 是否有意义?如果不是,为什么我应该只在原始文件上使用单词 n-gram?有什么优缺点?

【问题讨论】:

  • 你问的是字符 n-gram 吗? (例如 food -> "")还是关于单词 n-gram? (例如“词干原文”->“词干原文”、“原文”。)
  • 忘记了。我说的是单词 n-gram。谢谢。

标签: information-retrieval n-gram text-analysis stemming lemmatization


【解决方案1】:

在词形还原或词干提取之后计算单词 n-gram 的原因与您在词干提取之前想要的原因相同。有时这会给您带来误报,例如 (D3),但它通常会以您想要这样做的有意义的方式增加召回率。

在某些领域,例如短文本,词干提取可能会造成伤害。最好的办法是进行测试,但总的来说,我会建议词干提取和大小写折叠,但这实际上取决于您的域和查询。

Q="犯罪记录"

  • D1 = "...有一个criminal 记录 ..."(匹配词干)
  • D2 = "...公布了罪犯 记录 ..."(正常匹配)
  • D3 = "...在制作'Smooth Criminal'时,录音 ..."(词干上的错误匹配)

这是一个精确度/召回率的权衡。您可以(总是)通过词干提取来增加召回率,并且可以通过不进行词干提取来提高精度。但这取决于您所服务的查询类型。例如,如果您正在运行代码搜索,您几乎不想进行词干或预处理,因为用户希望输入准确的符号名称然后找到它们。

【讨论】:

    猜你喜欢
    • 2013-05-01
    • 1970-01-01
    • 2021-12-21
    • 2018-08-30
    • 1970-01-01
    • 2021-11-15
    • 2021-08-27
    • 2012-09-24
    • 1970-01-01
    相关资源
    最近更新 更多