【发布时间】:2018-03-18 12:57:48
【问题描述】:
A = sc.parallelize(xrange(1, 100))
t = 50
B = A.filter(lambda x: x < t)
print B.collect()
t = 10
C = B.filter(lambda x: x > t)
print C.collect()
我想从 A 中取出所有低于 50 的数字并放入 B,然后从 B 中取出所有高于 10 的数字并将它们放入 C。
但是,C.collect() 的结果是空数组。
但是,如果我改变了
m = 10
C = B.filter(lambda x: x > m)
它会正常工作的。
我不明白为什么,在这个操作上它需要以前的t 值
【问题讨论】:
标签: python apache-spark pyspark rdd