【发布时间】:2016-05-29 05:30:36
【问题描述】:
我想将pyspark.sql.dataframe.DataFrame 转换为pyspark.rdd.RDD[String]
我将 DataFrame df 转换为 RDD data:
data = df.rdd
type (data)
## pyspark.rdd.RDD
新的 RDD data 包含 Row
first = data.first()
type(first)
## pyspark.sql.types.Row
data.first()
Row(_c0=u'aaa', _c1=u'bbb', _c2=u'ccc', _c3=u'ddd')
我想将 Row 转换为 String 列表,如下例所示:
u'aaa',u'bbb',u'ccc',u'ddd'
谢谢
【问题讨论】:
标签: python apache-spark dataframe pyspark apache-spark-sql