【问题标题】:Lemmatizer supporting german language (for commercial and research purpose)支持德语的 Lemmatizer(用于商业和研究目的)
【发布时间】:2015-05-08 14:58:44
【问题描述】:

我正在寻找一个词形还原软件:

  • 支持德语
  • 拥有允许将其用于商业和研究目的的许可证。 LGPL 许可证会很好。
  • 最好用 Java 实现。其他编程语言的实现也可以。

有人知道这样的词形还原器吗?

问候,

更新:您好 Daniel,首先,感谢您为 LanguageTool 提供的出色工作。

我们希望将德语文本索引到 elasticsearch (ES) 中,并使用以下任一方法对文本进行预分析 一个 ES 内置的德语词干分析器(请参阅https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html) 或者 以下插件https://github.com/jprante/elasticsearch-analysis-baseform。后者在http://www.danielnaber.de/morphologie/morphy-mapping-20110717.latin1.gz 下使用您的形态文件,这就是为什么我认为您可能有一些评估数据,以便了解使用基于形态文件而不是 ES 内置词干分析器的词形还原时的权衡.你可能有一些关于你的德国形态的精确度/覆盖范围的数据吗?或者与 Elasticsearch 中使用的德语词干分析器进行比较数据?

最好的问候

【问题讨论】:

    标签: machine-learning nlp linguistics


    【解决方案1】:

    LanguageTool 可以做到这一点(免责声明:我是 LanguageTool 的维护者),它在 LGPL 下可用并在 Java 中实现。你可以使用GermanTagger.tag(),结果可以有多个阅读(因为语言通常是模棱两可的),每个阅读的AnalyzedToken最后都有一个引理。

    【讨论】:

    • 谢谢丹尼尔。如果您有兴趣,我会评估词形还原器并给您反馈。
    • @Horace 当然,请告诉我它对你的作用。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-09-10
    • 1970-01-01
    相关资源
    最近更新 更多