【问题标题】:Query to calculate term frequency * inverse document frequency查询以计算词频 * 逆文档频率
【发布时间】:2014-05-18 01:36:55
【问题描述】:

我的 Oracle 数据库中有 2 个表:

  1. DF (term, doccount)
  2. TF (abstractid, term, freq)

一个用于文档频率 (DF),具有术语和 documentCount,另一个用于称为 TF 的术语频率表,具有 documentID、术语、频率。 我想计算 TF*IDF,其中 TF = 术语出现在文章中的次数(表 TF 中的频率列)和 IDF = log (132225)-log(docCount)+1

我想将我的结果存储在一个包含 documentID、Terms 和计算出的 TF*IDF 的表 (TFIDF) 中

有什么想法吗?

【问题讨论】:

    标签: sql oracle tf-idf


    【解决方案1】:

    您需要加入 TFDF 表,然后插入目标 TFIDF 表。 试试这个:

    insert into TFIDF (documentID, terms, tf_idf)
    select abstractID, df.term, (log(10, 132225)-log(10, doccount)+1)*(tf.freq)
    from tf, df
    where tf.term = df.term;
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2016-01-23
      • 2023-03-08
      • 1970-01-01
      • 2015-01-19
      • 1970-01-01
      • 2017-06-13
      • 2015-11-23
      • 1970-01-01
      相关资源
      最近更新 更多