分词器(Tokenizer):对文本进行分词,可能是单字,词,二元切分等等。
而最基础的概念是Token,Token是DotLucene最基本的单位,以单字切分则每个单字为一个Token,如果以中文分词来切分则每个词为一个Token,
另外,中文分词器ChineseAnalyzer并不是中文分词,中文分词器仅仅是对中文分词的结果分析成DotLucene索引器能够认识的格式,
先实现分词器(Tokenizer),代码中用了一个第三方的分词组件做实验.
中文分析器(Analyzer)代码:
文中涉及到的中文分词组件:点此下载 ,中文分词组件版权归原作者所有,此出提供下载是为了大家学习之方便.用于商业目的,请自行联系作者.