http://127.0.0.1:9200/_analyze?analyzer=chinese&pretty=true&text=我是XXX

ElasticSearch-(四)(IK分词器)

1解压elasticsearch-analysis-ik-5.6.8.zip 重命名为ik

ElasticSearch-(四)(IK分词器)

2把ik包放入

elasticsearch-5.6.8\plugins目录下

ElasticSearch-(四)(IK分词器)

3重启

ctrl + c

ElasticSearch-(四)(IK分词器)

输入 elasticsearch启动

ElasticSearch-(四)(IK分词器)

4 IK分词器测试

IK提供了两个分词算法ik_smart 和 ik_max_word
其中 ik_smart 为最少切分

ik_max_word为最细粒度划分--分的词多
我们分别来试一下
(1)最小切分:在浏览器地址栏输入地址
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是程序员
输出的结果为:
ElasticSearch-(四)(IK分词器)

 

ElasticSearch-(四)(IK分词器)

5 自定义词库
 

默认的分词并没有识别“传智播客”是一个词。如果我们想让系统识别“传智播客”是一个
词,需要编辑自定义词库。
步骤:
(1)进入elasticsearch/plugins/ik/config目录
(2)新建一个custom.dic文件,编辑内容:名称自定义,编码为utf-8

ElasticSearch-(四)(IK分词器)

输入信息

ElasticSearch-(四)(IK分词器)

非常好的有限公司


修改IKAnalyzer.cfg.xml(在ik/config目录下)

ElasticSearch-(四)(IK分词器)

<properties>
<comment>IK Analyzer 扩展配置</comment>
<!‐‐用户可以在这里配置自己的扩展字典 ‐‐>
<entry key="ext_dict">custom.dic</entry>
<!‐‐用户可以在这里配置自己的扩展停止词字典‐‐>
<entry key="ext_stopwords"></entry>
</properties>

重新启动elasticsearch,通过浏览器测试分词效果

ElasticSearch-(四)(IK分词器)

ElasticSearch-(四)(IK分词器)

 

相关文章: