数据框对象在 pyspark 中不可调用答案

【问题标题】：dataframe object is not callable in pyspark数据框对象在 pyspark 中不可调用
【发布时间】：2018-07-12 09:31:44
【问题描述】：

temp = Window.partitionBy("id").orderBy("time").rowsBetween(-5, 5)
spark_df.withColumn("movingAvg",fn.avgspark_df("average")).over(temp)).show()

我在最后一行收到此错误。

数据框对象不可调用

【问题讨论】：

请阅读stackoverflow.com/help/how-to-ask
你的括号有问题 - 关闭太多
@Rumoku 或者在这种情况下，我认为没有足够的打开;）

标签： python pyspark apache-spark-sql

【解决方案1】：

您缺少一个括号，但似乎有些语法是错误的。我认为这是您在括号丢失之前的代码：

fn.avgspark_df("average")

这就是您收到错误的原因；您正在尝试将 DataFrame 作为函数调用。我相信您可以通过以下方式实现您想要的：

import pyspark.sql.functions as fn
from pyspark.sql import Window

df = pd.DataFrame({'id': [0,0,0,0,0,1,1,1,1,1],
                   'time': [1,2,3,4,5,1,2,3,4,5],
                   'average':[0,1,2,3,4,5,6,7,8,9] })
df = sqlContext.createDataFrame(df)

temp = Window.partitionBy("id").orderBy("time").rowsBetween(-1, 1)
df.withColumn("movingAvg",fn.avg("average").over(temp)).show()

【讨论】：

感谢我的帮助！我可以成功运行您的代码，但我无法在我的代码中执行此操作。可能是因为我使用了 :spark= SparkSession.builder.appName(" ").getOrCreate() file = "D:\project\HistoryData.csv" lines = pd.read_csv(file) cc=lines.values.tolist() spark_df=spark.createDataFrame(cc,['time','average','max','min']) 这个来创建我的数据框跨度>
它告诉我 pyspark.sql.utils.AnalysisException。
@xinlinli 这是在计算移动平均线之前还是之后发生的？参见例如这里stackoverflow.com/questions/41785342/…或stackoverflow.com/questions/42091575/…或stackoverflow.com/questions/43100458/…或stackoverflow.com/questions/39016440/…
现在我成功解决了问题，但是我遇到了一个新的奇怪问题stackoverflow.com/questions/51316635/…
@xinlinli 如果它帮助您解决问题，请考虑accepting this answer。我会看看你的新问题。

【解决方案2】：

 from pyspark.sql import SparkSession
 from pyspark.sql import Window
 from pyspark.sql.functions import max,min,avg
 spark = SparkSession.builder.appName("Data Frame Example") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()

 l=[("Alice", "2016-05-01", 50.00),
                                ("Alice", "2016-05-03", 45.00),
                                ("Alice", "2016-05-04", 55.00),
                                ("Bob", "2016-05-01", 25.00),
                                ("Bob", "2016-05-04", 29.00),
                                ("Bob", "2016-05-06", 27.00)]

customers = spark.sparkContext.parallelize(l).toDF(["name", "date", "amountSpent"])

temp = Window.partitionBy("name").orderBy("date")

customers.withColumn( "movingAvg",avg("amountSpent").over(temp)).show()

【讨论】：