【发布时间】:2020-10-24 09:10:02
【问题描述】:
我想转换一个像这样创建的数组:
case class Student(name: String, age: Int)
val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))
当我从 DataFrame 收集结果时,结果数组是 Array[org.apache.spark.sql.Row] = Array([Torcuato,27], [Rosalinda,34])
我正在考虑在 RDD[Map] 中转换 DataFrame,例如:
Map("name" -> nameOFFirst, "age" -> ageOfFirst)
Map("name" -> nameOFsecond, "age" -> ageOfsecond)
我尝试通过:x._1 使用地图,但这似乎不适用于Array [spark.sql.row] 我如何才能执行转换?
【问题讨论】:
-
外层map没有键值结构?
-
上下文是我想使用 spark-jobserver 但在作业结果的序列化方面存在一些问题。显然只有字符串键/值的映射有效。返回的结果将是几个 spark 查询的聚合。所以外部地图会包含更多的键。 groups.google.com/forum/#!topic/spark-jobserver/V4finry_RoM
-
这是一个非常糟糕的问题,具有误导性的标题、不好的做法、低质量的描述。当您在此处发布问题时,您需要处理这些内容
标签: scala apache-spark