solr6使用ansj做中文分词

solr中有自带的中文分词,不过它将中文按一个一个字进行分词，这就导致搜索出的结果让人不满

solr6使用ansj做中文分词

这里以text_general字段为例，managed-schema中的配置是这样写的：

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100" multiValued="true">
<analyzer type="index">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" expand="true" ignoreCase="true" synonyms="synonyms.txt"/>
<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

生成索引和查询使用的都是solr.StandardTokenizerFactory

官方文档有详细介绍：https://cwiki.apache.org/confluence/display/solr/Tokenizers

相关文章：

2022-12-23
2021-08-21
2022-12-23
2022-12-23
2021-06-29
2021-11-29

猜你喜欢

2021-07-10
2017-12-08
2021-11-25
2021-09-26
2021-08-04
2021-09-26
2021-12-20

相关资源

下载 2022-12-12
下载 2023-03-23
下载 2023-02-26
下载 2022-12-19

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode