【发布时间】:2015-10-30 14:00:27
【问题描述】:
我有一组数据,我想根据这些数据创建分类模型。每一行的格式如下:
user1,class1,product1
user1,class1,product2
user1,class1,product5
user2,class1,product2
user2,class1,product5
user3,class2,product1
大约有 100 万用户、2 个类和 100 万种产品。我接下来想做的是创建稀疏向量(MLlib 已经支持的东西)但是为了应用该函数,我必须首先创建密集向量(带有 0)。换句话说,我必须对我的数据进行二值化。最简单(或最优雅)的方法是什么?
鉴于我是 MLlib 的新手,我可以请你提供一个具体的例子吗?我正在使用 MLlib 1.2。
编辑
我已经完成了以下代码,但结果确实很慢...是否提供了我只能使用 MLlib 1.2 的其他想法?
val data = test11.map(x=> ((x(0) , x(1)) , x(2))).groupByKey().map(x=> (x._1 , x._2.toArray)).map{x=>
var lt : Array[Double] = new Array[Double](test12.size)
val id = x._1._1
val cl = x._1._2
val dt = x._2
var i = -1
test12.foreach{y => i += 1; lt(i) = if(dt contains y) 1.0 else 0.0}
val vs = Vectors.dense(lt)
(id , cl , vs)
}
【问题讨论】:
-
能否举例说明您希望密集向量输出对于该输入的外观?
-
你到底想做什么分类?即如果
userX和classY那么很可能是productZ或其他什么? -
并非如此。我将使用二进制分类,其中
userX是值的稀疏向量,classY是相应的类。 -
@user706838 是
userX一个实际的对象还是一个非常简单的字符串?您在分类过程中是否以任何方式考虑product? -
我想我在这里提出的问题对于以前从事过机器学习工作的人来说是非常直截了当的。我只是想找出在 MLlib 中实现这一点的最佳方法。在这里查看 scikit-learn 中的类似示例:scikit-learn.org/stable/modules/…
标签: scala apache-spark apache-spark-mllib apache-spark-1.2