【发布时间】:2020-06-25 12:06:56
【问题描述】:
我有以下 pyspark 数据框架构
root
|-- maindata: array (nullable = true)
| |-- element: array (containsNull = true)
| | |-- element: struct (containsNull = true)
| | | |-- label: string (nullable = true)
| | | |-- value: string (nullable = true)
| | | |-- unit: string (nullable = true)
| | | |-- dateTime: string (nullable = true)
提供我通过df.select(F.col("maindata")).show(1,False)收到的特定行的一些数据
|[[[a1, 43.24, km/h, 2019-04-06T13:02:08.020], [TripCount, 135, , 2019-04-06T13:02:08.790],["t2", 0, , 2019-04-06T13:02:08.040], [t4, 0, , 2019-04-06T13:02:08.050], [t09, 0, , 2019-04-06T13:02:08.050], [t3, 1, , 2019-04-06T13:02:08.050], [t7, 0, , 2019-04-06T13:02:08.050],[TripCount, ,136, 2019-04-06T13:02:08.790]]
我想访问此 ex 中的行程计数值:[TripCount -> 136,135 etc,访问此数据的最佳方法是什么?TripC 多次出现
还有有什么方法可以访问比如只有标签数据,比如 maindata.label..?
【问题讨论】:
-
你能发布示例数据和可重现的代码
-
@ShubhamJain 添加了一些示例数据。你能检查一下吗..基本上我需要获取tripcount的所有值..
标签: python apache-spark pyspark