摘要

最近想研究文本挖掘,所以这几天研究了一下Python的结巴分词扩展包,今天给大家分享分享我理解和使用的结巴分词,还请大家多多指导,有最近研究文本挖掘的也可以一起研究探讨。

ps:网上现在其实jieba分词有很多,而且大多讲的也差不多,但还是想写点,跟别的很多地方有一样的,大家可以都看看。
【Python】jieba分词扩展包讲解

首先,结巴分词包安装就比较简单了,下载安装包之后在cmd里面进入该文件夹,直接运行python setup.py install 就ok啦。

Python结巴分词网上一般会讲解它的八个点,但是我最近看了之后感觉前面的六个点可能用的多一点,所以就讲一讲前面六个点。

1.分词
分词一般使用jieba.cut()或者jieba.cut_for_search()这两个函数。
1.jieba.cut()函数有三个参数:

  a.分词字符串
  b.cut_all = True/False(使用全模式还是精准模式,默认为精准模式)
  c.HMM参数用来控制是否使用HMM模型(这个参数我感觉一般不用)

2.jieba.cut_for_search()函数有两个参数:

  a.分词字符串
  b.是否使用HMM模型

这个很容易理解,大家对照着代码和输出结果看看就能懂了,如果有啥疑问,可以随时提出。
【Python】jieba分词扩展包讲解

2.添加自定义词典
有时有的词语,词典里面没有,这个时候可能你就想用自己定义的词典。用法:jieba.load_userdict(file_name) 。
注意:词典格式是一个词占一行,一行包括三部分,分别为词语,词频和词性,其中词频和词性可以省略,并且这三个部分应该用空格隔开。
【Python】jieba分词扩展包讲解
另外,也可以调整词典:add_word(word,freq=None,tag=None),del_word(word)

3.关键词提取
关键词提取在结巴分词里面有两种算法选择,一种是基于IF-IDF算法,另外一种是基于TextRank算法。(这两种算法大家可以百度百度,挺好理解的,如果有机会的话,公众号说不定会哪次分享给大家)
a.基于TF-IDF算法:
函数:jieba.analyse.extract_tags(sentence,topK = 20,withWeight = False,allowPOS = ())

函数的四个参数分别为待提取文本;返回TF-IDF权重最大的多少                    个关键字;是否返回权重;仅包括的词性。

b.基于TextRank算法:

函数:jieba.analyse.textrank(sentence,topK = 20,withWeight =                        False,allowPOS =  ())

将这两种算法的结果对比着输出来给大家看看:
【Python】jieba分词扩展包讲解
【Python】jieba分词扩展包讲解
【Python】jieba分词扩展包讲解

4.词性标注:

 函数:jieba.posseg.POSTokenize(tokenizer = None)新建自定义分词器
 这个部分直接看程序运行吧。

【Python】jieba分词扩展包讲解
输出结果很简单:
【Python】jieba分词扩展包讲解

5.并行分词:
这块的话原理就是将目标文本分隔后,把各个文本分配到多个Python进程进行并行分词。可以直接使用Python自带的multiprocessing模块,但是这个现在暂时不支持Windows系统,所以我也给大家展示不了。

6.Tokenize:返回词语在原文的起止位置
直接使用函数jieba.tokenize(),这个函数有个参数mode,如果不填写该参数则默认使用默认模式,填写该参数mode=‘search’,则使用搜索模式。
【Python】jieba分词扩展包讲解
【Python】jieba分词扩展包讲解

还有两点是ChineseAnalyzer for Whoosh搜索引擎和命令行分词,这里就不说了,想了解的朋友可以去百度百度。

我们下次再见,如果还有下次的话!!!
欢迎关注微信公众号:516数据工作室
【Python】jieba分词扩展包讲解

相关文章:

  • 2021-08-20
  • 2021-07-06
  • 2021-08-06
  • 2021-07-21
  • 2021-09-19
  • 2021-04-16
  • 2021-09-24
  • 2021-08-05
猜你喜欢
  • 2021-06-23
  • 2021-12-12
  • 2021-11-14
  • 2021-04-28
  • 2021-07-19
  • 2021-09-13
  • 2021-10-07
相关资源
相似解决方案