【发布时间】:2021-03-24 18:57:52
【问题描述】:
我有一个像这样的单列数据框
------------
date
------------
01/01/2020
02/01/2020
04/01/2020
05/01/2020
06/01/2020
我必须得到最长的连续时间开始日期和结束日期。所以在上面的例子中我有这样的输出
-----------------------------------------------
start | end | period_length |
-----------------------------------------------
04/01/2020 06/01/2020 3
我的方法: 对数据进行排序并找到前一行的滞后,每当滞后 > 1 时,重置周期长度 但我无法找到在特定条件下重置期间的方法。 我正在使用火花 2.3
【问题讨论】:
标签: scala apache-spark apache-spark-sql apache-spark-2.3