【发布时间】:2016-11-29 08:48:44
【问题描述】:
我有一个包含 100 万行和 560 列的 spark 数据框。我需要在数据框的每一列中找到唯一项目的数量。 我编写了以下代码来实现这一点,但它被卡住并且需要花费太多时间来执行:
count_unique_items=[]
for j in range(len(cat_col)):
var=cat_col[j]
count_unique_items.append(data.select(var).distinct().rdd.map(lambda r:r[0]).count())
cat_col 包含所有分类变量的列名
有什么办法可以优化吗?
【问题讨论】: