【问题标题】:Surprising results for German lemmatization in SpacySpacy 中德国词形还原的惊人结果
【发布时间】:2021-09-09 23:22:58
【问题描述】:

我想在 Spacy 中使用德语的词形还原器,但我对结果感到非常惊讶:

import spacy

nlp = spacy.load("de_dep_news_trf")
[token.lemma_ for token in nlp('ich du er sie mein dein sein ihr unser')]

给予

['ich', 'du', 'ich', 'ich', 'meinen', 'mein', 'mein', 'mein', 'sich']

我不确定我是否可以使用它:

vielen dank für deinen sehr guten tweet

变成

viel danken für mein sehr gut tweet

这明显改变了句子的意思。

这是预期的吗?我是否缺少使词形还原器不那么“激进”的调整/配置?

【问题讨论】:

    标签: spacy lemmatization


    【解决方案1】:

    当前 (v3.1) 默认的德语词形还原器不是很好。这是一个非常简单的查找词形还原器,其查找表中有一些有问题的条目,但鉴于德国预训练管道的许可限制,没有其他好的选择。 (我们确实有一些关于统计词形还原器的内部工作正在进行中,但我不确定它何时会发布。)

    如果引理对您的任务很重要,最好的建议是使用不同的引理器。根据您的任务/大小/速度/许可证要求,您可以考虑使用来自spacy-stanza 的德国模型或像spacy-iwnlp 这样的第三方库(目前仅适用于 spacy v2,但可能不难更新 v3) .

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-08-01
      相关资源
      最近更新 更多