DotLucene源码浅读笔记(1)补遗:编写简单中文分词器ChineseAnalyzer

原理部分,可以参考, 过滤器的综合包装类。

分词器(Tokenizer)：对文本进行分词，可能是单字，词，二元切分等等。

而最基础的概念是Token,Token是DotLucene最基本的单位，以单字切分则每个单字为一个Token,如果以中文分词来切分则每个词为一个Token,

另外,中文分词器ChineseAnalyzer并不是中文分词,中文分词器仅仅是对中文分词的结果分析成DotLucene索引器能够认识的格式,

先实现分词器(Tokenizer),代码中用了一个第三方的分词组件做实验.

}

中文分析器(Analyzer)代码:

DotLucene源码浅读笔记(1)补遗:编写简单中文分词器ChineseAnalyzer

public class ChineseAnalyzer : Analyzer
}

上面是一个简单的DotLucene的ChineseAnalyzer,算法并不是最优的.主要用于理解如何实现ChineseAnalyzer

文中涉及到的中文分词组件:点此下载 ,中文分词组件版权归原作者所有,此出提供下载是为了大家学习之方便.用于商业目的,请自行联系作者.