【发布时间】:2017-08-26 07:35:47
【问题描述】:
我在集群模式下运行 spark 并通过 JDBC 从 RDBMS 读取数据。
根据 Spark docs,这些分区参数描述了在从多个 worker 并行读取时如何对表进行分区:
partitionColumnlowerBoundupperBoundnumPartitions
这些是可选参数。
如果我不指定这些会发生什么:
- 只有 1 个工作人员读取全部数据?
- 如果还是并行读取,它是如何分区数据的?
【问题讨论】:
-
您有通过 jdbc 从 RDBMS 读取记录的示例代码吗?
-
@SurenderRaja 你可以查看 - gist.github.com/devender-yadav/5c4328918602b7910ba883e18b68fd87
标签: apache-spark jdbc apache-spark-sql partitioning