【发布时间】:2019-09-03 17:14:01
【问题描述】:
我正在使用 spark 从 Amazon S3 加载 json 文件。我想根据保留最新的数据框的两列删除重复项(我有时间戳列)。最好的方法是什么?请注意,重复项可能分布在多个分区中。我可以在不改组的情况下删除保留最后一条记录的重复项吗?我正在处理 1 TB 的数据。
我正在考虑通过这两个列对数据帧进行分区,这样所有重复的记录都将“一致地散列”到同一个分区中,因此分区级别排序之后是删除重复项将消除所有重复项,只保留一个。我不知道这是否可能。任何信息表示赞赏。
【问题讨论】: