【问题标题】:Spark Python/SQL - how to group with unique combinationsSpark Python/SQL - 如何使用独特的组合进行分组
【发布时间】:2022-01-11 17:30:36
【问题描述】:

我有一个 2 列 Spark 数据框,其独特组合看起来像这样(简单版本):

col1    col2
   a       b
   b       c
   b       d
   d       e
   f       g

我想组成组,在这种情况下会有 2 个组:(a,b,c,d,e) 和 (f,g),因为它们是通过组合链接的。计算组成员数量的最简单方法是,如果我能将其作为输出:

col1    col2
   a       b
   a       c
   a       d
   a       e
   f       g

有人知道怎么做吗?提前感谢您的帮助!

【问题讨论】:

    标签: python sql apache-spark pyspark


    【解决方案1】:

    您需要使用 pyspark 查看图表并使用 connectedComponents() 来显示分组。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2012-05-19
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-04-11
      • 1970-01-01
      • 2018-11-18
      相关资源
      最近更新 更多