【问题标题】:English lemmatizer databases?英语词形还原数据库?
【发布时间】:2011-06-10 15:00:50
【问题描述】:

您是否知道任何足够大的词形分析器数据库可以为以下示例词返回正确结果:

geese: goose
plantes: //not found

Wordnet 的形态分析器是不够的,因为它给出了以下不正确的结果:

geese: //not found
plantes: plant

【问题讨论】:

    标签: nlp stemming lemmatization morphological-analysis


    【解决方案1】:

    MorphAdorner 似乎在这方面做得更好,但它仍然发现“植物”的结果不正确

    plantes: plante
    geese: goose
    

    也许您想使用 MorphAdorner 进行词形还原,然后对照 WordNet 检查其结果。您可以使用 WordNet API 来执行查找而不首先通过调用 findtheinfo_ds 执行词形还原。这允许您首先使用像 MorphAdorner 这样的词形还原器。 (如果你想使用 lemmaitzer,你需要单独调用 morph 并在它返回的 lemmas 上调用 findtheinfo_ds。)

    另一方面,为此我只花了大约 5 秒钟查看 MorphAdorner,可能有一种方法可以消除不正确的“植物”答案,而无需使用任何其他外部资源。

    【讨论】:

    • 谢谢,取消选中“标准化拼写”后,它会返回plante,可以对照 wordnet 检查它是否不正确(我直接使用 wordnet 文件)。但是您知道“早期现代英语/十九世纪小说”选项是什么,它的语料库是否足够近,可以用于现代英语?
    • @Johns:当我说我只花了大约 5 秒钟的时间看时,这就是我所暗示的。尝试查看他们的文档,看看它是否说明了什么。
    【解决方案2】:

    Once upon a time,有人向我推荐了Morpha,但我没用过,所以我不知道它在这方面是否比 WordNet 做得更好。

    【讨论】:

    • 它没有在线演示但阅读描述似乎它不是基于数据库的。不过如果时间不够的话我会试试的。
    猜你喜欢
    • 2014-04-04
    • 1970-01-01
    • 1970-01-01
    • 2019-08-01
    • 2018-11-03
    • 2014-07-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多