Solr系列二：Solr与mmseg4j的整合

mmseg4j是一个很好的中文分词器，solr与mmseg4j的整合也非常简单。如下：

第一步：下载mmseg4j的jar包，网上搜索一下有很多下载地址，如下是csdn上的一个连接：http://download.csdn.net/detail/nrs12345/6986585

第二步：将下载的mmseg4j-analysis-1.9.1.jar、mmseg4j-core-1.9.1.jar、mmseg4j-solr-2.2.0.jar这三个jar包复制到tomcat下的webapps/solr/WEB-INF/lib目录下。

第三步：修改配置文件，打开solr home目录中的某一个core的目录，例如core0：然后打开core0/conf下的schema.xml文件。

第四步：在filedtype域插入如下代码：

    <fieldType name="textComplex" class="solr.TextField" >  
        <analyzer>  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic/"/>  
        </analyzer>  
    </fieldType>  
    <fieldType name="textMaxWord" class="solr.TextField" >  
        <analyzer>  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic/"/>  
        </analyzer>  
    </fieldType>  
    <fieldType name="textSimple" class="solr.TextField" >  
        <analyzer>  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic/"/>  
        </analyzer>  
    </fieldType>

4. 将mmseg4j-all-1.8.4-with-dic.war解压在一个临时文件夹中，然后将data文件夹内的chars.dic、units.dic、words.dic三个字典文件复制到TOMCAT_HOME/solr_home/core0/dic目录中；

5. 启动tomcat，访问http://localhost:8080/solr/admin/analysis.jsp，选择Field下拉选项中的type，后面输入textComplex，然后在Field value中随便复制一段中文文字，点击Analyz，就可以看到mmseg4j的分词结果了。