【发布时间】:2020-05-10 23:02:25
【问题描述】:
我正在尝试从 4 个数组创建一个 DataSet。我有这样的数组:
// Array 1
val rawValues = rawData.select(collect_list("rawValue")).first().getList[Double](0).asScala.toArray
// Array 2
var trendValues = Array[Double]()
// Array 3
var seasonalValues = Array[Double]()
// Array 4
var remainder = Array[Double]()
我根据第一个数组上的一些计算(此处未包括)填充了最后 3 个数组。所有 4 个数组的大小都相同,为了填充第一个数组,另一个数据集的 column-rawValue 被转换为一个数组,如上所示。
完成所有计算后,我想创建一个 DataSet,它有 4 个独立的列,每列代表 4 个独立的数组。
那么,基本上如何从数组创建数据集?我也在努力做同样的事情。
请帮忙。
【问题讨论】:
-
为什么要将数据集转换为数组,您可以将数组转换为数据集并将所有数据集连接在一起吗?
-
为了创建array1,我使用了一个数据集的特定列,我需要在该列上应用各种操作来进一步计算其他3个数组。所以,最后我将有 4 个数组,需要将这 4 个数组转换为数据集中的 4 个特定列。
-
好的,您可以为您想要的那些和最终输出添加示例数据吗?
标签: arrays scala apache-spark apache-spark-dataset