【发布时间】:2021-11-28 05:03:31
【问题描述】:
我的日期列包含所有DepartmentID 的两个日期,一个是start_date,另一个是end_date。输出将有两列用于开始日期和结束日期。我想使用 SQL 窗口函数或 Spark Dataframe 来实现。
输入
Employee ID Date DepartmentID SupervisorID
10001 20130101 001 10009
10001 20130909 001 10019
10001 20131201 002 10018
10001 20140501 002 10017
10001 20141001 003 10015
10001 20141201 003 10014
预期输出
Employee ID DateStart DateEnd DepartmentID
10001 20130101 20131201 001
10001 20131201 20141001 002
10001 20141001 Null 003
【问题讨论】:
-
每个员工的每个部门是否正好有 2 行?
标签: sql apache-spark apache-spark-sql