【问题标题】:In Apache Spark Scala, how to fill Vectors.dense in DataFrame from CSV?在 Apache Spark Scala 中,如何从 CSV 填充 DataFrame 中的 Vectors.dense?
【发布时间】:2016-09-23 14:38:12
【问题描述】:

世界,

我是火花新手。

我注意到了这个在线示例:

http://spark.apache.org/docs/latest/ml-pipeline.html

我很好奇这个语法:

// Prepare training data from a list of (label, features) tuples.
val training = spark.createDataFrame(Seq(
  (1.0, Vectors.dense(0.0, 1.1, 0.1)),
  (0.0, Vectors.dense(2.0, 1.0, -1.0)),
  (0.0, Vectors.dense(2.0, 1.3, 1.0)),
  (1.0, Vectors.dense(0.0, 1.2, -0.5))
)).toDF("label", "features")

是否可以将上述调用替换为从 CSV 读取值的某些语法?

我想要类似于 Python-Pandas read_csv() 方法的东西。

【问题讨论】:

  • 是的,到目前为止你尝试了什么?
  • @eliasah 没那么多。 VectorUDT不能直接用csv表示,可以吗?
  • @zero323 不能直接表示,但是很容易做到。但我想知道 OP 是否尝试过某些事情,或者他是否只是在找人做他的工作。

标签: scala csv apache-spark


【解决方案1】:

答案:是的,有可能

如果 CSV 在 HDFS 上,您可以使用 spark-csv 读取它:example,或者如果使用普通 scala,您可以在普通文件系统上读取它:example

【讨论】:

  • 有没有不在注册墙后面的例子?
猜你喜欢
  • 2022-01-02
  • 2016-08-16
  • 1970-01-01
  • 1970-01-01
  • 2020-02-13
  • 1970-01-01
  • 2018-08-14
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多