下载一长篇中文文章。
从文件读取待分析文本。
news = open(\'gzccnews.txt\',\'r\',encoding = \'utf-8\')
安装与使用jieba进行中文分词。
pip install jieba
import jieba
list(jieba.lcut(news))
生成词频统计
排序
排除语法型词汇,代词、冠词、连词
输出词频最大TOP20
将代码与运行结果截图发布在博客上。
# -*- coding : UTF-8 -*- # -*- author : onexiaofeng -*- import jieba jieba.add_word(\'路明非\') news=open(\'longzu.txt\',\'r\',encoding=\'utf-8\') notes=news.read() notelist=list(jieba.lcut(notes)) Word={} for i in set(notelist): Word[i]=notelist.count(i) delete_word={\'我\',\' \',\'得\',\';\', \'你\', \'的\', \'他\', \'她\', \'它\', \'的\', \'着\', \'呀\',\',\',\'。\',\':\',\'“\',\'”\',\'也\',\'吗\',\'?\',\'被\',\'说\',\ \'是\',\'使\',\'与\',\'不\',\'是\',\'、\',\'而\',\'又\',\'!\', \'\n\',\'…\',\'?\',\'了\',\'有\',\'在\',\'来\',\'嗯\',\'去\',\'于\',\'人\',\'中\',\'想\',\'却\',\ \'到\',\'此\',\'叫\',\'便\',\'把\',\'但\',\'若\',\'以\',\'龙\',\'人\',\'已\',\'可\',\'出\',\'被\',\'使\',\'却\',\'都\',\'就\',\'和\',\'上\',\'地\',\'里\',\'们\',\'那\',\'一个\',\'还\',\'很\',\'么\',\'就是\'} for i in delete_word: if i in Word: del Word[i] sort_word = sorted(Word.items(), key= lambda d:d[1], reverse = True) for i in range(20): print(sort_word[i])
截图: