【发布时间】:2010-03-31 17:26:09
【问题描述】:
简而言之,我的问题:有谁知道用于 Lucene 的 TwitterAnalyzer 或 TwitterTokenizer?
更详细的版本:
我想在 Lucene 中为许多推文编制索引,并保持 @user 或 #hashtag 等术语不变。 StandardTokenizer 不起作用,因为它会丢弃标点符号(但它会做其他有用的事情,例如保留域名、电子邮件地址或识别首字母缩略词)。我怎样才能拥有一个分析器,它可以完成 StandardTokenizer 所做的所有事情,但不涉及 @user 和 #hashtag 之类的术语?
我目前的解决方案是在将推文文本输入分析器之前对其进行预处理,并用其他字母数字字符串替换字符。例如,
String newText = newText.replaceAll("#", "hashtag");
newText = newText.replaceAll("@", "addresstag");
不幸的是,这种方法会破坏合法的电子邮件地址,但我可以接受。这种方法有意义吗?
提前致谢!
澳大利亚
【问题讨论】:
-
您的最终解决方案是什么样的?
-
如果您需要 solr 的解决方案,这可能会有所帮助:issues.apache.org/jira/browse/SOLR-2059 和类似 "# => ALPHA" "@ => ALPHA"