【发布时间】:2021-11-05 00:54:28
【问题描述】:
我需要一些帮助才能访问列中的名称。例如,我有以下架构:
root
|-- id_1: string (nullable = true)
|-- array_1: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- id_2: string (nullable = true)
| | |-- post: struct (nullable = true)
| | | |-- value: double (nullable = true)
通过使用
cols = df.columns
我将获得根级别所有名称的列表,
cols = [id_1, array_1,...]
但是,我想访问其中的名称,例如'array_1'。使用
df.id_1.columns
简单返回
Column<b'array_1[columns]'>
而且没有名字。有什么方法可以访问数组中的名称?结构也会出现同样的问题。这将帮助我循环/使功能更容易。如果可以避免各种模块,那将是有益的。
谢谢
【问题讨论】:
标签: scala dataframe apache-spark apache-spark-sql rdd