【发布时间】:2011-06-10 15:00:50
【问题描述】:
您是否知道任何足够大的词形分析器数据库可以为以下示例词返回正确结果:
geese: goose
plantes: //not found
Wordnet 的形态分析器是不够的,因为它给出了以下不正确的结果:
geese: //not found
plantes: plant
【问题讨论】:
标签: nlp stemming lemmatization morphological-analysis
您是否知道任何足够大的词形分析器数据库可以为以下示例词返回正确结果:
geese: goose
plantes: //not found
Wordnet 的形态分析器是不够的,因为它给出了以下不正确的结果:
geese: //not found
plantes: plant
【问题讨论】:
标签: nlp stemming lemmatization morphological-analysis
MorphAdorner 似乎在这方面做得更好,但它仍然发现“植物”的结果不正确
plantes: plante
geese: goose
也许您想使用 MorphAdorner 进行词形还原,然后对照 WordNet 检查其结果。您可以使用 WordNet API 来执行查找而不首先通过调用 findtheinfo_ds 执行词形还原。这允许您首先使用像 MorphAdorner 这样的词形还原器。 (如果你想使用 lemmaitzer,你需要单独调用 morph 并在它返回的 lemmas 上调用 findtheinfo_ds。)
另一方面,为此我只花了大约 5 秒钟查看 MorphAdorner,可能有一种方法可以消除不正确的“植物”答案,而无需使用任何其他外部资源。
【讨论】:
plante,可以对照 wordnet 检查它是否不正确(我直接使用 wordnet 文件)。但是您知道“早期现代英语/十九世纪小说”选项是什么,它的语料库是否足够近,可以用于现代英语?
Once upon a time,有人向我推荐了Morpha,但我没用过,所以我不知道它在这方面是否比 WordNet 做得更好。
【讨论】: