【发布时间】:2019-08-19 00:56:25
【问题描述】:
我正在使用带有 kafka、java8 的 spark-sql 2.4.1 结构化流。 例如,我的数据集如下所示
我需要根据 ColA ColB ColC 找出重复项,并根据 ColDate 取出其中最新的一份,然后删除其余的。
即 从上面的数据结果应该是
如何使用火花流来完成? 即,我将在流中获取数据,例如......如果按照前面指定的逻辑重复我需要删除记录,则不确定何时出现重复。 在流媒体场景中一般如何完成?
【问题讨论】:
-
"取最新的"意思是取最小的?你为什么不
groupBy和min每ColDate?你试过了吗?然后,您必须加入自身才能获取其余字段。
标签: apache-spark apache-spark-sql spark-structured-streaming