背景

tfidf相对词频可以很好的反应出文本中的关键词。本文将使用sklearn进行关键词提取。

实战

机器学习-nlp-sklearn进行关键词提取(基于tfidf)

  • 结巴分词
  • 使用pandas读取csv文件内容
  • 遍历titile内容进行分词

机器学习-nlp-sklearn进行关键词提取(基于tfidf)

  • 加载停用词
  • 遍历进行停词

机器学习-nlp-sklearn进行关键词提取(基于tfidf)

  • 使用sklearn的TfidfVectorizer对文本进行向量化
  • tfidf.toarray()转换成为矩阵,然后进行行排序,取最后的n个索引(argsort是拿到索引值)
  • 通过get_feature_names获取到词袋的词语
  • 通过索引进行取值

相关文章:

  • 2022-12-23
  • 2021-06-07
  • 2021-11-10
  • 2021-09-04
  • 2021-12-22
  • 2022-01-19
  • 2021-10-18
  • 2023-03-28
猜你喜欢
  • 2021-12-22
  • 2021-09-18
  • 2021-08-29
  • 2021-10-07
  • 2022-12-23
  • 2022-01-13
  • 2022-12-23
相关资源
相似解决方案