【发布时间】:2018-07-30 10:30:09
【问题描述】:
只是想弄清楚处理这种情况的最佳方法是什么。我使用 dataset.write 写入 oracle 数据库,要求查找表中是否已经存在重复项(不在数据集中),如果存在则将这些重复记录写入不同的表中。有没有人遇到过类似的问题?我正在写入的表是一个巨大的表,如果我在写入数据集之前从中读取现有数据进行比较,成本会很高
使用的保存模式是 append 。它是一个 kafka 流应用程序,每 2 分钟连续传输数据。
【问题讨论】:
-
你能提供你正在使用的陈述吗?
-
你明白了吗?
标签: apache-spark spark-streaming apache-spark-dataset