【发布时间】:2022-06-14 23:45:35
【问题描述】:
我正在寻找一种有效的方法来将 pyspark 数据框 df_input 中的行分解为列。我不明白'@{name...}' 的格式,也不知道从哪里开始解码。感谢您的帮助!
df_input = sqlContext.createDataFrame(
[
(1, '@{name= Hans; age= 45}'),
(2, '@{name= Jeff; age= 15}'),
(3, '@{name= Elona; age= 23}')
],
('id', 'firstCol')
)
预期结果:
+---+-----+---+
| id| name|age|
+---+-----+---+
| 1| Hans| 45|
| 2| Jeff| 15|
| 3|Elona| 23|
+---+-----+---+
【问题讨论】:
-
当您在真实数据帧上使用
df.printSchema()时,您会看到哪些数据类型? -
数据类型为字符串