【问题标题】:Create tokens for Email headers for lucene为 lucene 的电子邮件标头创建令牌
【发布时间】:2012-10-16 21:22:16
【问题描述】:

这是在 rfc822、rfc2822 和 MIME 下定义的示例标头 现在我想使用 lucene 创建全文搜索。 如果我使用标准分析器,它将创建太多无用的令牌,从而降低性能。有什么方法可以通过编写自定义分析器和标记器来创建好的标记。

来自 webmaster@email.marketingmag.ca

Microsoft Mail Internet Headers 2.0 版

收到:来自 sdlasd02.medicis.com ([172.23.163.35]) 由 mpc-exchange.medicis.com 与

微软 SMTPSVC(6.0.3790.3959); 2009 年 6 月 1 日星期一 04:30:59 -0700

收到:来自 sdlasd02.medicis.com 和 Microsoft SMTPSVC 的邮件取件服务; 2009 年 6 月 1 日星期一 04:30:59 -0700

收到:来自 SDLMAIL01.medicis.com ([98.175.1.32]) 由 sdlasd02.medicis.com 与 Microsoft SMTPSVC(6.0.3790.1830); 2009 年 6 月 1 日星期一 04:30:59 -0700

返回路径:bo-buhbpmfbpgh9f6axbzpa2ae1achzvh@b.email.marketingmag.ca

X-CTCH-ID:CFBA793F-FB3C-4DEB-A504-C6165B493680

X-CTCH-RefID:str=0001.0A090202.4A23BBF3.009A,ss=1,fgs=0

X-CTCH-动作:忽略

【问题讨论】:

    标签: email header lucene tokenize analyzer


    【解决方案1】:

    您通常会为每个您感兴趣的标头添加一个字段(例如日期、消息 ID、发件人:等),而忽略其余部分。每个字段都属于相关类型,并进行相应分析

    【讨论】:

    • 感谢您的快速响应,但即使您存储每个文件,它的值也可能是垃圾。 RFC2822 也定义了任何 ASCII 字符。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2014-02-04
    • 2014-10-07
    • 1970-01-01
    • 2017-11-08
    • 2021-12-13
    • 1970-01-01
    相关资源
    最近更新 更多