【发布时间】:2011-01-20 00:27:20
【问题描述】:
我正在寻找一个 Java 库来对用户生成的文本内容进行一些初始拼写检查/数据规范化,想象一下在 Facebook 个人资料中输入的兴趣。
此文本将在某个时候被标记化(在拼写更正之前或之后,无论哪个效果更好),其中一些用作搜索键(精确匹配)。最好减少拼写错误等以产生更多匹配。如果更正在比一个单词更长的标记上表现良好,那就更好了,例如“trinking coffee”会变成“drinking coffee”而不是“thinking coffee”。
我找到了以下用于进行拼写纠正的 Java 库:
- JAZZY 似乎没有在积极开发中。此外,由于在社交网络配置文件和多词标记中使用了非标准语言,基于字典距离的方法似乎不够用。
- APACHE LUCENE 似乎有一个更适合的statistical spell checker。这里的问题是如何创建一个好的字典? (我们没有使用 Lucene,所以没有现有的索引。)
欢迎提出任何建议!
【问题讨论】:
标签: java lucene spell-checking