【发布时间】:2015-06-16 08:05:38
【问题描述】:
我是 Python 和 Spark 的新手。 我有一对包含 (key, List) 的 RDD,但其中一些值是重复的。 RDD 的形式为 (zipCode,streets) 我想要一对不包含重复项的 RDD。 我正在尝试使用 python 来实现它。 谁能帮忙解决这个问题。
(邮政编码,街道)
streetsGroupedByZipCode = zipCodeStreetsPairTuple.groupByKey()
dayGroupedHosts.take(2)
[(123456, <pyspark.resultiterable.ResultIterable at 0xb00518ec>),
(523900, <pyspark.resultiterable.ResultIterable at 0xb005192c>)]
zipToUniqueStreets = streetsGroupedByZipCode.map(lambda (x,y):(x,y.distinct()))
上面一个不起作用
【问题讨论】:
标签: python apache-spark pyspark