【发布时间】:2015-05-08 14:58:44
【问题描述】:
我正在寻找一个词形还原软件:
- 支持德语
- 拥有允许将其用于商业和研究目的的许可证。 LGPL 许可证会很好。
- 最好用 Java 实现。其他编程语言的实现也可以。
有人知道这样的词形还原器吗?
问候,
更新:您好 Daniel,首先,感谢您为 LanguageTool 提供的出色工作。
我们希望将德语文本索引到 elasticsearch (ES) 中,并使用以下任一方法对文本进行预分析 一个 ES 内置的德语词干分析器(请参阅https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html) 或者 以下插件https://github.com/jprante/elasticsearch-analysis-baseform。后者在http://www.danielnaber.de/morphologie/morphy-mapping-20110717.latin1.gz 下使用您的形态文件,这就是为什么我认为您可能有一些评估数据,以便了解使用基于形态文件而不是 ES 内置词干分析器的词形还原时的权衡.你可能有一些关于你的德国形态的精确度/覆盖范围的数据吗?或者与 Elasticsearch 中使用的德语词干分析器进行比较数据?
最好的问候
【问题讨论】:
标签: machine-learning nlp linguistics