【发布时间】:2012-10-16 21:22:16
【问题描述】:
这是在 rfc822、rfc2822 和 MIME 下定义的示例标头 现在我想使用 lucene 创建全文搜索。 如果我使用标准分析器,它将创建太多无用的令牌,从而降低性能。有什么方法可以通过编写自定义分析器和标记器来创建好的标记。
来自 webmaster@email.marketingmag.ca
Microsoft Mail Internet Headers 2.0 版
收到:来自 sdlasd02.medicis.com ([172.23.163.35]) 由 mpc-exchange.medicis.com 与
微软 SMTPSVC(6.0.3790.3959); 2009 年 6 月 1 日星期一 04:30:59 -0700
收到:来自 sdlasd02.medicis.com 和 Microsoft SMTPSVC 的邮件取件服务; 2009 年 6 月 1 日星期一 04:30:59 -0700
收到:来自 SDLMAIL01.medicis.com ([98.175.1.32]) 由 sdlasd02.medicis.com 与 Microsoft SMTPSVC(6.0.3790.1830); 2009 年 6 月 1 日星期一 04:30:59 -0700
返回路径:bo-buhbpmfbpgh9f6axbzpa2ae1achzvh@b.email.marketingmag.ca
X-CTCH-ID:CFBA793F-FB3C-4DEB-A504-C6165B493680
X-CTCH-RefID:str=0001.0A090202.4A23BBF3.009A,ss=1,fgs=0
X-CTCH-动作:忽略
【问题讨论】:
标签: email header lucene tokenize analyzer