http://127.0.0.1:9200/_analyze?analyzer=chinese&pretty=true&text=我是XXX
1解压elasticsearch-analysis-ik-5.6.8.zip 重命名为ik
2把ik包放入
elasticsearch-5.6.8\plugins目录下
3重启
ctrl + c
输入 elasticsearch启动
4 IK分词器测试
IK提供了两个分词算法ik_smart 和 ik_max_word
其中 ik_smart 为最少切分
ik_max_word为最细粒度划分--分的词多
我们分别来试一下
(1)最小切分:在浏览器地址栏输入地址
http://127.0.0.1:9200/_analyze?analyzer=ik_smart&pretty=true&text=我是程序员
输出的结果为:
5 自定义词库
默认的分词并没有识别“传智播客”是一个词。如果我们想让系统识别“传智播客”是一个
词,需要编辑自定义词库。
步骤:
(1)进入elasticsearch/plugins/ik/config目录
(2)新建一个custom.dic文件,编辑内容:名称自定义,编码为utf-8
输入信息
非常好的有限公司
修改IKAnalyzer.cfg.xml(在ik/config目录下)
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!‐‐用户可以在这里配置自己的扩展字典 ‐‐>
<entry key="ext_dict">custom.dic</entry>
<!‐‐用户可以在这里配置自己的扩展停止词字典‐‐>
<entry key="ext_stopwords"></entry>
</properties>
重新启动elasticsearch,通过浏览器测试分词效果