liuguangshou123

关键词提取

关键词的定义:仁者见仁,智者见智的问题。

一:词频统计

通过统计文章中反复出现的词语。

词频统计的流程:分词、停用词过滤、按词频取前n个。(m个元素取前n个元素通常利用最大堆解决。其复杂度为O(mlogn))

缺点:高频词并不等价于关键词。

二:使用TF-IDF(词频-倒排文档频次)

在TF-IDF算法中,词的重要程度不光正比于他在文档中的频次,还反比于有多少文档包含他。

t代表单词,d代表文档,TF(t,d)代表t在d中的出现频次,DF(t)代表多少篇文档包含t。

三:实战测试

数据来源:10000条用户关于套餐内容的投诉信息。包括时间、地址、账号、订单号、英文类型等无关内容。

需求:提取前关键词,生成词云图。

实战结果:

IO次数过高。程序运行直接暂停了

 

解决方案为:

https://www.jianshu.com/p/352d1cdff534

 使用了sklearn的TfidfVectorizer算法包,但是想根据tfidf值作为词频生成词云图,但生成的是空白页面。

最终结果:

分类:

技术点:

相关文章:

  • 2021-12-22
  • 2021-09-06
  • 2021-08-22
  • 2021-12-22
  • 2021-11-14
  • 2021-07-25
猜你喜欢
  • 2021-10-05
  • 2021-05-18
  • 2022-01-01
  • 2022-01-01
  • 2022-01-01
  • 2022-01-01
相关资源
相似解决方案