【发布时间】:2015-04-07 15:45:48
【问题描述】:
我的 hdfs 中有一些序列文件格式的 Mahout 向量。是否可以以某种方式使用相同的向量在 Spark 中训练 KMeans 模型?我可以将现有的 Mahout 向量转换为 Spark 向量 (mllib),但我想避免这种情况。
【问题讨论】:
标签: apache-spark machine-learning mahout k-means apache-spark-mllib
我的 hdfs 中有一些序列文件格式的 Mahout 向量。是否可以以某种方式使用相同的向量在 Spark 中训练 KMeans 模型?我可以将现有的 Mahout 向量转换为 Spark 向量 (mllib),但我想避免这种情况。
【问题讨论】:
标签: apache-spark machine-learning mahout k-means apache-spark-mllib
Spark 不直接支持 Mahout 向量。根据您的担忧,您需要将它们转换为 Spark Vectors。
val sc = new SparkContext("local[2]", "MahoutTest")
val sfData = sc.sequenceFile[NullWritable, MVector](dir)
val xformedVectors = sfData.map { case (label, vect) =>
import collection.JavaConversions._
(label, Vectors.dense(vect.all.iterator.map{ e => e.get}.toArray))
}
【讨论】: