【问题标题】:How to apply TFIDF to find important words in csv file using pycharm如何使用 pycharm 应用 TFIDF 在 csv 文件中查找重要单词
【发布时间】:2017-06-08 03:51:30
【问题描述】:

我有一个包含一些数据的文件,

我拥有的数据示例

+------------+---------------------------------+-------------------------+
|  SOC Code  |              Title              |  Occupational Category  |
+------------+---------------------------------+-------------------------+
| 11-1011.03 | Chief Sustainability Officers   | New & Emerging          |
| 11-1021.00 | General and Operations Managers | Enhanced Skills         |
+------------+---------------------------------+-------------------------+

我需要找到文件中出现频率最高的单词 关于如何应用它的任何想法?代码片段将被视为示例

【问题讨论】:

  • 欢迎来到stackoverflow。查看 TF-IDF 上的维基百科条目,您会发现如果您只有一个文档,这没有意义——您需要许多文档的集合,而 TF-IDF 在其中进行选择。你可能需要一个不同的指标,你肯定需要一个更好的问题陈述。请注意,在本网站上,向我们提供了一些代码,我们会帮助您改进它。
  • 这与 PyCharm 无关。它只是一个编辑器。你可以编写一个 Python 程序在任意数量的编辑器中对 CSV 文件进行操作。

标签: python csv nltk tf-idf


【解决方案1】:

您可以使用 NLTK FreqDist 方法计算单词并返回最常用的单词。

【讨论】:

    猜你喜欢
    • 2021-05-11
    • 1970-01-01
    • 1970-01-01
    • 2015-03-10
    • 2020-01-29
    • 2011-05-06
    • 1970-01-01
    • 2017-11-11
    • 1970-01-01
    相关资源
    最近更新 更多