蛙蛙推荐:蛙蛙教你索引邮件
困了,不多说了,就是教你怎样把邮件建立索引,再搜索出来。用MAPI把邮件读取到数据库里,用SharpICTCLAS做一个lucene的中文的语汇单元分析器,用lucene建立索引及查询索引。
把某目录邮件读取到数据库里的代码很简单
为了方便测试,先弄一些假数据
像收件人,抄送地址等用一个简单的语汇单元分析器就可以,代码如下,因为token的位置信息只在分析的时候有用,只有位置增量才会写到索引里,所以位置信息都写了-1
把lucene适配成lucene的分析器,有人做了,直接拿过来,链接如下
http://www.cnblogs.com/birdshover/archive/2008/03/26/1122305.html
建立索引的代码如下,写了些注释,不多说了就
搜索的代码如下
最后整个的测试代码如下
最后的结果代码应该如下
索引
正在索引:倡议:大家做一个.net开源的灾难管理系统
正在索引:[置顶]蛙蛙推荐:蛙蛙教你文本聚类
正在索引:蛙蛙推荐:蛙蛙牌关键词提取算法
正在索引:蛙蛙推荐:蛙蛙牌软件注册码算法
搜索
搜索包含'蛙蛙'的邮件
共有3个结果
20080511-蛙蛙推荐:蛙蛙牌关键词提取算法
20080510-[置顶]蛙蛙推荐:蛙蛙教你文本聚类
20080503-蛙蛙推荐:蛙蛙牌软件注册码算法
搜索包含'蛙蛙'且包含'聚类'的邮件
共有1个结果
20080510-[置顶]蛙蛙推荐:蛙蛙教你文本聚类
搜索包含接受时间从20080510到20080513的邮件
共有2个结果
20080510-[置顶]蛙蛙推荐:蛙蛙教你文本聚类
20080511-蛙蛙推荐:蛙蛙牌关键词提取算法
ok
完整源码下载如下
https://files.cnblogs.com/onlytiancai/MailIndexer.zip
其中词库,吕震宇的中文分词的程序集及lucene.net2.0的程序集请到网上搜索下载。