【发布时间】:2019-04-30 08:23:45
【问题描述】:
我想根据条件从列表的 spark 数据框中删除行。条件是列表的长度为一定长度。
我尝试将其转换为列表列表,然后使用 for 循环(如下所示),但我希望在 spark 中的一个语句中执行此操作,并基于此从原始 df 创建一个新的不可变 df条件。
newList = df2.values.tolist()
finalList = []
for subList in newList:
if len(subList) < 4:
finalList.append(subList)
因此,例如,如果数据框是单列数据框并且该列被命名为序列,它看起来像:
sequences
____________
[1, 2, 4]
[1, 6, 3]
[9, 1, 4, 6]
我想删除列表长度大于 3 的所有行,结果是:
sequences
____________
[1, 2, 4]
[1, 6, 3]
【问题讨论】:
标签: pyspark