【问题标题】:Reduce and Lambda on pyspark dataframe在 pyspark 数据帧上减少和 Lambda
【发布时间】:2021-06-25 12:20:18
【问题描述】:

以下是来自https://graphframes.github.io/graphframes/docs/_site/user-guide.html的示例

我唯一困惑的是条件函数中“lit(0)”的目的 如果这个“lit(0)”意味着输入“cnt”?如果是,为什么在 ["ab","bc","cd"] 之后?

from pyspark.sql.functions import col, lit, when
from pyspark.sql.types import IntegerType
from graphframes.examples import Graphs
from functools import reduce

chain4 = g.find("(a)-[ab]->(b); (b)-[bc]->(c); (c)-[cd]->(d)")

chain4.show()

sumFriends = lambda cnt,relationship: when(relationship == "friend", cnt+1).otherwise(cnt)

condition = reduce(lambda cnt,e: sumFriends(cnt, col(e).relationship), ["ab", "bc", "cd"], lit(0))

chainWith2Friends2 = chain4.where(condition >= 2)
chainWith2Friends2.show()

【问题讨论】:

    标签: python lambda pyspark reduce graphframes


    【解决方案1】:

    lit(0)reduce 语句的initializer。您需要使用cnt = 0 初始化sumFriends 计数器才能开始计数。

    condition = reduce(lambda cnt,e: sumFriends(cnt, col(e).relationship), ["ab", "bc", "cd"], lit(0))
    
    # should be equivalent to
    
    condition = sumFriends(lit(0), col("ab").relationship)
    condition = sumFriends(condition, col("bc").relationship)
    condition = sumFriends(condition, col("cd").relationship)
    

    【讨论】:

    • 感谢您的回答,还有一个问题是函数识别 cnt 应该如何由初始化程序分配?
    • @gllow 这就是在 Python 中定义 reduce 函数的方式。您可以查看链接文档中的代码示例,尤其是 value = initializervalue = function(value, element) 行。
    • 初始化器用作提供的 lambda 函数的第一个参数。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-10-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多