【问题标题】:Python - Count how many times keywords stored in a list appear in textPython - 计算存储在列表中的关键字出现在文本中的次数
【发布时间】:2021-10-04 18:12:34
【问题描述】:

我有一个包含 20k+ 个关键字的关键字列表。我想检查 KeywordList 中有多少关键字出现在多个单独的文本文件中。我还想知道出现在文本文件中的关键字的总体频率。最好的方法是什么?

【问题讨论】:

  • 您想计算在许多文档中出现了多少次(例如单词“the”等)?
  • @Jab 是的,但前提是该词在 KeywordList 中并且出现在任何文本文件中。

标签: python nlp keyword-search


【解决方案1】:

我会使用词袋方法:见https://en.wikipedia.org/wiki/Bag-of-words_model

这是我几年前的一个例子,从 pandas 数据框中提取字数:

all_words = df['keywords'].str.split(expand=True).unstack().value_counts()

这为您提供了唯一单词及其计数的键值对。遍历您的文件,您应该拥有所有单词及其计数

您可以从那里将关键字和关键字列表转换为集合并使用intersection 函数。这将为您生成一组关键字列表中的所有关键字

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多