jieba(结巴)是一个强大的分词库,完美支持中文分词,做为最好的Python中文分词组件。

安装:pip install jieba

特点

支持三种分词模式:

  1.精确模式,试图将句子最精确地切开,适合文本分析;

     import jieba

    strings = '今天天气真好'
    seg = jieba.cut(strings,cut_all=False)
    print(','.join(seg))

        output :   今天天气,真,好

     cut_all参数默认为False,所有使用cut方法时默认为精确模式


  2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

    

      import jieba

    strings = '今天天气真好'
    seg = jieba.cut(strings,cut_all=True)
    print(','.join(seg))

        output :   今天,今天天气,天天,天气,真好


  3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    

    import jieba

   strings = '今天天气真好'
   seg = jieba.cut_for_search(strings)
   print(','.join(seg))

      output : 今天,天天,天气,今天天气,真,好

相关文章:

  • 2022-12-23
  • 2022-12-23
  • 2021-09-11
  • 2022-02-28
  • 2021-12-04
猜你喜欢
  • 2021-08-03
  • 2022-12-23
  • 2021-11-29
  • 2022-12-23
  • 2022-12-23
  • 2021-12-18
  • 2021-08-29
相关资源
相似解决方案