在 Apache Spark Scala 中，如何从 CSV 填充 DataFrame 中的 Vectors.dense？答案

【问题标题】：In Apache Spark Scala, how to fill Vectors.dense in DataFrame from CSV?在 Apache Spark Scala 中，如何从 CSV 填充 DataFrame 中的 Vectors.dense？
【发布时间】：2016-09-23 14:38:12
【问题描述】：

世界，

我是火花新手。

我注意到了这个在线示例：

http://spark.apache.org/docs/latest/ml-pipeline.html

我很好奇这个语法：

// Prepare training data from a list of (label, features) tuples.
val training = spark.createDataFrame(Seq(
  (1.0, Vectors.dense(0.0, 1.1, 0.1)),
  (0.0, Vectors.dense(2.0, 1.0, -1.0)),
  (0.0, Vectors.dense(2.0, 1.3, 1.0)),
  (1.0, Vectors.dense(0.0, 1.2, -0.5))
)).toDF("label", "features")

是否可以将上述调用替换为从 CSV 读取值的某些语法？

我想要类似于 Python-Pandas read_csv() 方法的东西。

【问题讨论】：

是的，到目前为止你尝试了什么？
@eliasah 没那么多。 VectorUDT不能直接用csv表示，可以吗？
@zero323 不能直接表示，但是很容易做到。但我想知道 OP 是否尝试过某些事情，或者他是否只是在找人做他的工作。

标签： scala csv apache-spark

【解决方案1】：

答案：是的，有可能

如果 CSV 在 HDFS 上，您可以使用 spark-csv 读取它：example，或者如果使用普通 scala，您可以在普通文件系统上读取它：example

【讨论】：

有没有不在注册墙后面的例子？