【发布时间】:2019-01-11 03:37:51
【问题描述】:
我正在尝试在 Spark Scala 中分解嵌套的 DataFrame。我有一个 DataFrame df,其中包含以下信息:
root
|-- id: integer (nullable = false)
|-- features: array (nullable = true)
| |-- element: float (containsNull = false)
我已经将数组信息分解为一个平面 DataFrame:
df.selectExpr("id","explode(features) as features")
并得到以下DataFrame:
id features
0 0.0629885
0 0.15931357
0 0.08922347
我的最终目标是转换数据并计算与该信息的一些相似性。为此,将每个 ID 的特征的实际位置放入 DataFrame 中会非常酷,如下所示:
id features feature_pos
0 0.0629885 0
0 0.15931357 1
0 0.08922347 2
【问题讨论】:
标签: scala apache-spark dataframe apache-spark-sql