背景 tfidf相对词频可以很好的反应出文本中的关键词。本文将使用sklearn进行关键词提取。 实战 结巴分词 使用pandas读取csv文件内容 遍历titile内容进行分词 加载停用词 遍历进行停词 使用sklearn的TfidfVectorizer对文本进行向量化 tfidf.toarray()转换成为矩阵,然后进行行排序,取最后的n个索引(argsort是拿到索引值) 通过get_feature_names获取到词袋的词语 通过索引进行取值 相关文章: 2022-12-23 2021-06-07 2021-11-10 2021-09-04 2021-12-22 2022-01-19 2021-10-18 2023-03-28