【发布时间】:2016-09-23 14:38:12
【问题描述】:
世界,
我是火花新手。
我注意到了这个在线示例:
http://spark.apache.org/docs/latest/ml-pipeline.html
我很好奇这个语法:
// Prepare training data from a list of (label, features) tuples.
val training = spark.createDataFrame(Seq(
(1.0, Vectors.dense(0.0, 1.1, 0.1)),
(0.0, Vectors.dense(2.0, 1.0, -1.0)),
(0.0, Vectors.dense(2.0, 1.3, 1.0)),
(1.0, Vectors.dense(0.0, 1.2, -0.5))
)).toDF("label", "features")
是否可以将上述调用替换为从 CSV 读取值的某些语法?
我想要类似于 Python-Pandas read_csv() 方法的东西。
【问题讨论】:
-
是的,到目前为止你尝试了什么?
-
@eliasah 没那么多。
VectorUDT不能直接用csv表示,可以吗? -
@zero323 不能直接表示,但是很容易做到。但我想知道 OP 是否尝试过某些事情,或者他是否只是在找人做他的工作。
标签: scala csv apache-spark