【问题标题】:Does Spark MLlib IDF shuffle data?Spark MLlib IDF 是否对数据进行洗牌?
【发布时间】:2018-01-07 16:39:24
【问题描述】:

在下面的代码中,spark 在计算 IDF 和 TF-IDF 向量时是否必须打乱数据?

val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)
tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)

【问题讨论】:

    标签: apache-spark apache-spark-mllib tf-idf


    【解决方案1】:

    它不会随机播放:

    • transform 两种方法都使用RDD.map 实现
    • IDF.fit 使用 RDD.treeAggregate 实现。

    miDocFreq 较低时,fit 方法可能仍然相当昂贵。

    【讨论】:

      猜你喜欢
      • 2016-04-29
      • 2017-02-09
      • 1970-01-01
      • 2016-10-06
      • 2014-01-23
      • 1970-01-01
      • 1970-01-01
      • 2021-12-31
      • 1970-01-01
      相关资源
      最近更新 更多