1.中文分词三大类

- 基于字典,词库进行匹配
- 正向最大匹配
- 逆向最大匹配
- 双向最大匹配
- 设立切分标志法
- 最佳匹配
- 基于词频度统计
- N-gram模型
- 隐马尔科夫模型
- 基于字标注的中文分词方法
- 基于知识理解
2.结巴分词


import jieba
import jieba.posseg
import jieba.analyse
seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
print("Full Mode:", "/ ".join(seg_list))
seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
print("Default Mode:", "/ ".join(seg_list))
seg_list = jieba.cut("他来到了网易杭研大厦")
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")
print(", ".join(seg_list))
jieba.load_userdict("./dict.txt")
seg_list = jieba.cut("他是创新办主任,也是云计算方面的专家")
print(", ".join(seg_list))
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
jieba.suggest_freq(('中', '将'), True)
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
jieba.suggest_freq('台中', True)
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
s = '''
此外,公司拟对全资子公司吉林欧亚置业有限公司增资4.3亿元,增资后,吉林欧亚置业注册
资本由7000万元增加到5亿元。吉林欧亚置业主要经营范围为房地产开发及百货零售等业务。
目前在建吉林欧亚城市商业综合体项目。2013年,实现营业收入0万元,实现净利润-139.13万元。
'''
for x, w in jieba.analyse.extract_tags(s, topK=20, withWeight=True):
print('%s %s' % (x, w))
for x, w in jieba.analyse.textrank(s, withWeight=True):
print('%s %s' % (x, w))
words = jieba.posseg.cut("我爱北京天安门")
for word, flag in words:
print('%s %s' % (word, flag))
result = jieba.tokenize(u'永和服装饰品有限公司')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
result = jieba.tokenize(u'永和服装饰品有限公司', mode='search')
for tk in result:
print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))
- 自创字典词语字典格式