【发布时间】:2018-07-23 13:50:46
【问题描述】:
我在下面提到了以镶木地板格式保存的数据集,想要加载新数据并更新同一个文件,例如,使用 UNION 的新 ID 出现在“3”中,我可以添加该特定的新 ID,但如果相同的 ID 再次出现在 last_updated 列中的最新时间戳我只是想保留最新记录。我如何使用 Apache Spark 和 Java 来实现这一点。
+-------+------------+--------------------+---------+
| id|display_name| last_updated|is_active|
+-------+------------+--------------------+---------+
| 1| John|2018-07-23 08:32:...| true|
| 2| Tony|2018-07-22 20:32:...| true|
+-------+------------+--------------------+---------+
【问题讨论】:
标签: java apache-spark apache-spark-sql