通过 JDBC 从 RDBMS 读取时在 Spark 中进行分区答案

【问题标题】：Partitioning in spark while reading from RDBMS via JDBC通过 JDBC 从 RDBMS 读取时在 Spark 中进行分区
【发布时间】：2017-08-26 07:35:47
【问题描述】：

我在集群模式下运行 spark 并通过 JDBC 从 RDBMS 读取数据。

根据 Spark docs，这些分区参数描述了在从多个 worker 并行读取时如何对表进行分区：

这些是可选参数。

如果我不指定这些会发生什么：

【问题讨论】：

您有通过 jdbc 从 RDBMS 读取记录的示例代码吗？
@SurenderRaja 你可以查看 - gist.github.com/devender-yadav/5c4328918602b7910ba883e18b68fd87

【解决方案1】：

如果您未指定 {partitionColumn、lowerBound、upperBound、numPartitions} 或 {predicates}，Spark 将使用单个执行程序并创建单个非空分区。所有数据都将使用单个事务处理，读取既不会分布式也不会并行化。

另见：

【讨论】：