【问题标题】:term frequency calculation词频计算
【发布时间】:2011-02-22 00:23:57
【问题描述】:

我需要计算文档中术语的术语频率... 我所做的只是“计算该术语在该文档中出现的次数”...如果该术语出现 138 次,我将 tf 值设为 138 ....m 我做对了..?? 当我在某处读到 termfrequency (tf)= term count/no of words in the document...如果这是真的,我如何计算文档中的单词数..是一些正则表达式吗???

请回复..谢谢你

【问题讨论】:

  • 基于同一发帖人之前关于该主题的帖子,将其标记为作业。

标签: frequency term tf-idf


【解决方案1】:

在大多数正则表达式实现中,都有单词边界的概念,\b。因此,匹配一个单词的正则表达式可能如下所示:\b(\w+)\b

基本上,正则表达式的意思是:匹配一个单词边界,然后至少匹配 1 个单词字符 (\w+),然后再匹配一个单词边界。括起来的括号只是将匹配的单词添加到一个组中,以便您以后可以提取它。在您的情况下,这可能不是必需的,因此您可以根据需要删除它们。

希望对你有所帮助。

【讨论】:

    【解决方案2】:

    您没有提及您使用的语言/程序。大多数文本编辑器会告诉您文档中有多少字。在 unix 中,您可以使用“wc -w 文件名”命令。

    【讨论】:

      猜你喜欢
      • 2021-02-28
      • 1970-01-01
      • 2018-05-23
      • 2020-09-11
      • 2019-11-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-06-16
      相关资源
      最近更新 更多