【发布时间】:2020-12-30 00:28:23
【问题描述】:
我正在准备一个数据集来开发一个监督模型来预测一个给定之前 5 个先前值的值。例如,给定下面的示例数据,我会预测给定列 1:5 的第 6 列,或给定列 3:7 的第 8 列。
id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 ...
a 150 110 130 80 136 150 190 110 150 110 130 136 100 150 190 110
b 100 100 130 100 136 100 160 230 122 130 15 200 100 100 136 100
c 130 122 140 140 122 130 15 200 100 100 130 100 136 100 160 230
为此,我想将上面的示例数据重新组织为 6 列的行,并尽可能采用 6 个值的每个切片/窗口(例如 1:6、2:7、3:8)。我怎样才能做到这一点?在 PySpark/SQL 中可能吗?下面的输出示例,索引只是为了澄清:
1 2 3 4 5 6
a[1:6] 150 110 130 80 136 150
a[2:7] 110 130 80 136 150 190
a[3:8] 130 80 136 150 190 110
...
c[1:6] 130 122 140 140 122 130
c[2:7] 122 140 140 122 130 15
...
c[10:16] 130 100 136 100 160 230
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql