【发布时间】:2017-10-26 08:59:20
【问题描述】:
我有一个名为myRDD 的pyspark.rdd.PipelinedRDD。这是它的示例内容:
[((111, u'BB', u'A'), (444, u'BB', u'A')),
((222, u'BB', u'A'), (888, u'BB', u'A')),
((333, u'BB', u'B'), (999, u'BB', u'A')),...]
我需要删除所有第三列值不一致的条目。预期的结果是这样的:
[((111, u'BB', u'A'), (444, u'BB', u'A')),
((222, u'BB', u'A'), (888, u'BB', u'A')),...]
我该怎么做?
【问题讨论】:
标签: python apache-spark pyspark rdd