【发布时间】:2018-01-07 16:39:24
【问题描述】:
在下面的代码中,spark 在计算 IDF 和 TF-IDF 向量时是否必须打乱数据?
val hashingTF = new HashingTF()
val tf: RDD[Vector] = hashingTF.transform(documents)
tf.cache()
val idf = new IDF().fit(tf)
val tfidf: RDD[Vector] = idf.transform(tf)
【问题讨论】:
标签: apache-spark apache-spark-mllib tf-idf