【发布时间】:2017-04-30 16:46:34
【问题描述】:
我正在查看 Scala 中 Spark DataFrame 的 window 滑动函数。
我有一个 DataFrame 列 Col1、Col2、Col3、date、volume 和 new_col。
Col1 Col2 Col3 date volume new_col
201601 100.5
201602 120.6 100.5
201603 450.2 120.6
201604 200.7 450.2
201605 121.4 200.7`
现在我想添加一个名称为(new_col) 的新列,其中一行向下滑动,如上所示。
我尝试了以下选项来使用窗口功能。
val windSldBrdrxNrx_df = df.withColumn("Prev_brand_rx", lag("Prev_brand_rx",1))
你有什么建议吗?
【问题讨论】:
-
@Ramesh 直到 Spark 2.0,用户必须使用
HiveContext而不是SQLContext来应用窗口函数。通过传递SparkContext的实例,HiveContext的创建方式与SQLContext相同。如果我没记错的话,您还需要包含org.apache.spark:spark-hive_2.10以及适合您的 Spark 发行版的版本。
标签: scala apache-spark window-functions