【发布时间】:2018-10-08 19:52:14
【问题描述】:
我有一个 scala 程序,它有一个数据框并使用此语句将其转换为列表。
示例df:
df = spark_session.createDataFrame([
("key", "a,b,c")
]
val list=df.rdd.map(r=>r.getString(0)).collect.toList.flatMap(_.split(",")).filter(p=> !p.contains(primaryKey))
我需要在PySpark 中编写类似的语句,但r=>r.getString(0) 在PySpark 中不起作用。我怎样才能做到这一点?
【问题讨论】:
-
你能提供一些示例数据吗?
-
我添加了一些示例数据