【问题标题】:PySpark DataFrame multiply columns based on values in other columnsPySpark DataFrame 根据其他列中的值乘以列
【发布时间】:2019-07-16 11:49:08
【问题描述】:

Pyspark 新手在这里。例如,我有一个数据框,

+------------+-------+----+
|          id|  mode|count|
+------------+------+-----+
|     146360 |   DOS|   30|
|     423541 |   UNO|    3|
+------------+------+-----+

我想要一个带有新列 aggregatecount * 2 的数据框,当模式为 'DOS'count * 1 时,模式为 'UNO'

+------------+-------+----+---------+
|          id|  mode|count|aggregate|
+------------+------+-----+---------+
|     146360 |   DOS|   30|       60|
|     423541 |   UNO|    3|        3|
+------------+------+-----+---------+

感谢您的意见以及一些最佳实践的建议:)

【问题讨论】:

    标签: pyspark apache-spark-sql


    【解决方案1】:

    方法一:使用pyspark.sql.functionswhen

    from pyspark.sql.functions import when,col
    df = df.withColumn('aggregate', when(col('mode')=='DOS', col('count')*2).when(col('mode')=='UNO', col('count')*1).otherwise('count'))
    

    方法二:使用selectExpr的SQL CASE表达式:

    df = df.selectExpr("*","CASE WHEN mode == 'DOS' THEN count*2 WHEN mode == 'UNO' THEN count*1 ELSE count END AS aggregate")
    

    结果:

    +------+----+-----+---------+
    |    id|mode|count|aggregate|
    +------+----+-----+---------+
    |146360| DOS|   30|       60|
    |423541| UNO|    3|        3|
    +------+----+-----+---------+
    

    【讨论】:

      猜你喜欢
      • 2016-11-30
      • 1970-01-01
      • 2017-01-09
      • 1970-01-01
      • 2022-12-21
      • 1970-01-01
      • 1970-01-01
      • 2022-09-27
      • 2020-11-14
      相关资源
      最近更新 更多