【发布时间】:2020-12-25 14:50:31
【问题描述】:
我正在连接一堆列并计算它们。我不能指望别名吗?
df.select(F.col("_c21"),F.concat(F.col("id1"),F.lit("|"),F.col("id2"),F.lit("|"),F.col("id3"),F.lit("|"),F.col("id4").alias("ids")))
df.repartition(col("_c21"])).count("ids").over(Window.partitionBy("_c21"))
数据看起来像这样
+--------------------+--------------------------------------------+
| _c21|concat(id1, |, id2, |, id3, |, id4 AS `ids`)|
+--------------------+--------------------------------------------+
|roBMSlo...| US|WA|98115|Centu...|
|3Vzlfim...| FR|56|56130|SFR.....|
|rgBdftS...| CA|NB|E1A|Bell Ca...|
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql