【发布时间】:2020-05-20 01:57:45
【问题描述】:
我正在尝试在 PySpark 中复制这个问题的解决方案(Spark How to get keys and values from MapType column in SparkSQL DataFrame 下面是我的代码(与上面链接的问题相同的 df):
import pyspark.sql.functions as F
distinctKeys = df\
.select(F.explode("alpha"))\
.select("key")\
.distinct()\
.rdd
df.select("id", distinctKeys.map(lambda x: "alpha".getItem(x).alias(x))
但是,此代码给出了错误:AttributeError: 'PipelineRDD' object has no attribute '_get_object_id'。关于如何解决它的任何想法?
【问题讨论】:
标签: python apache-spark pyspark rdd