使用jieba中文拆字库时,可以通过三种拆字模式,分别是:精准模式分词,全模式分词,搜索引擎分词;
具体的代码可以参考
str_text=open('/Users/zhangge/Desktop/新建文本文档.TXT',encoding='utf-8',errors='ignore').read()
str_jing1=jieba.cut(str_text,cut_all=False)
#print('精准模式分词:{ %d}' % len(list(str_jing1)))
#str_jing2=jieba.cut(filepath,cut_all=False)
#print("$".join(str_jing2))
str_quan1=jieba.cut(str_text,cut_all=True)
print('全模式分词:{ %d}' % len(list(str_quan1)))
str_quan2=jieba.cut(str_text,cut_all=True)
print("$".join(str_quan2))
str_soso1=jieba.cut_for_search(str_text)
print('搜索引擎分词:{ %d}' % len(list(str_soso1)))
str_soso2=jieba.cut_for_search(str_text)
print("$".join(str_soso2))
在MAC系统下可以获取到具体的数据,并且在run里面显示具体的拆分的文本
在导入自定义词库时发现一个问题,就是无论如何都会出现找不到路径,百思不得其解啊!
之后想办法使用另外一种方式进行加载自定义词库
使用系统自带的os库里面的方式
filepath= open(os.path.join('data','电子病例模板.txt'),'r',encoding='utf-8',errors='ignor').read()
userdict = os.path.join("data", "user.txt")
jieba.load_userdict(userdict)
str_load=jieba.cut(filepath,cut_all=False)
print('load_userdict后:'+"/".join(str_load))
这里面的data是我们项目的根目录
以上是在学习python过程中解决的导入自定义词库的问题记录,方便以后自己查阅