【发布时间】:2020-10-21 12:37:05
【问题描述】:
我需要将数据框列的所有值合并为每列的单个值。所以列保持不变,但我只是将所有各自的值相加。 为此,我打算使用此功能:
def sum_col(data, col):
return data.select(f.sum(col)).collect()[0][0]
我现在正在考虑这样做:
data = data.map(lambda current_col: sum_col(data, current_col))
这是可行的,还是我需要另一种方法来合并列的所有值?
【问题讨论】:
-
您可以使用 udf 来做到这一点。 Custome 定义了一个函数,该函数可以通过将一个函数应用于 df 的结果生成另一列。
标签: python dataframe apache-spark pyspark