sxpy-lj

分词器

分词器,是将用户输入的一段文本,分析成符合逻辑的一种工具。
现在的分词器没有办法做到完全的符合人们的要求。
分词器有英文分词器和中文分词器,分词过程如下:
英文的分词器过程:输入文本-关键词切分-去停用词-形态还原-转为小写
  这里需要注意:查询索引时及时原文中都是大写也需要将其全部转换为小写
中文的分词器分为:
  单子分词 例:中国人 分成中,国,人
  二分法人词:例 中国人:中国,国人
  词典分词:有基本的语意来进行分词的,例:中国人分成中国,国人,中国人,
  极易分词
  庖丁分词
扩展:
停用词:不影响语意的词。
posted on 2017-08-15 16:49  李飞21  阅读(109)  评论(0编辑  收藏  举报

分类:

技术点:

相关文章:

  • 2021-06-18
  • 2021-11-18
  • 2021-04-25
  • 2022-02-23
  • 2022-12-23
  • 2021-07-23
  • 2021-05-19
  • 2022-01-22
猜你喜欢
  • 2021-12-12
  • 2021-05-30
  • 2021-07-29
  • 2022-01-01
  • 2021-05-22
  • 2022-02-17
  • 2021-12-30
相关资源
相似解决方案