我自己简易封装了一个分词器,使用Lucene.Net.类图如下:

文本分类(一)封装分词器

使用测试如下:

 

}

 

输出结果如下:

文本分类(一)封装分词器

 

可见:

SimpleSpliter的分词方法是以空格、或标点分词,并去掉了标点;

StandarSpliter的粉刺方法是中文单字分词,英文以空格分词,并去掉了标点;

CnSpliter的分词方法是中文单字分词,对单个无意义的英文字母直接去掉了;-_-!

ICTCLAS的分词方法比较适合使用,对“我们“、”是“这样的无意义中文进行了过滤,中文分词效果也比较理想。

稍后贴出下载地址。

 

相关文章:

  • 2022-12-23
  • 2021-12-27
  • 2021-04-02
  • 2021-08-28
  • 2021-07-14
  • 2021-12-07
  • 2021-06-26
猜你喜欢
  • 2022-02-04
  • 2021-05-25
  • 2021-06-21
  • 2022-12-23
  • 2021-04-25
  • 2021-07-07
  • 2022-12-23
相关资源
相似解决方案