【问题标题】:Concatenation of unique values into a spark dataframe将唯一值连接到 spark 数据框中
【发布时间】:2022-01-19 16:42:46
【问题描述】:

我想连接两个具有不同值的 spark 数据帧:

df:

c1    c2
A     D
B     E
B     F

df2:

A    B
key1 4
key2 5
key3 6

我想将这些数据框中某些列的唯一值连接到一个数据框中。因此,输出将是

回复:

values      origin
A           first
B           first
key1        second
key2        second
key3        second

【问题讨论】:

    标签: python dataframe apache-spark pyspark apache-spark-sql


    【解决方案1】:

    简单的union 应该可以完成这项工作:

    import pyspark.sql.functions as F
    
    df1 = df1.selectExpr("c1 as value").distinct().withColumn("origin", F.lit("first"))
    
    df2 = df2.selectExpr("A as value").distinct().withColumn("origin", F.lit("second"))
    
    res = df1.union(df2)
    

    【讨论】:

      猜你喜欢
      • 2020-11-08
      • 2021-06-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多