【发布时间】:2016-03-07 16:45:49
【问题描述】:
我正在尝试使用 groupBy 和 sum(使用 PySpark 1.5)在 Spark Dataframe 中创建一个新列(“newaggCol”)。我的数字列已转换为 Long 或 Double。用于形成 groupBy 的列是 String 和 Timestamp。我的代码如下
df= df.withColumn("newaggCol",(df.groupBy([df.strCol,df.tsCol]).sum(df.longCol)))
我的错误回溯到了那一行。并说明:
ValueError: Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFrame boolean expressions.
我觉得我一定是调用函数不正确?
【问题讨论】:
标签: python sql apache-spark pyspark apache-spark-sql