【发布时间】:2020-04-26 15:33:53
【问题描述】:
我需要在 2 个 Oracle 表之间进行连接,然后通过 Spark(Java 中)处理数据。 这样做的最佳选择是什么? - 利用本机 Oracle 连接功能,通过“select * from table1,table2 where table1.fk = table2.pk”之类的查询在 Spark 中加载单个数据集 或者 - 利用 Spark 连接功能加载 2 个不同的数据集(每个 Oracle 表一个),然后通过 Dataset 函数 Dataset.join 执行连接?
谢谢!
【问题讨论】:
标签: java oracle apache-spark