【发布时间】:2017-08-10 20:11:25
【问题描述】:
假设我有一个包含 10,000 条记录的 RDBMS 表,其中有一列 (pk_key) 是从 1 到 10,000 的序列值。我打算通过 spark 阅读它。 我打算分成10个分区。
所以在 DataFrameReader jdbc 方法中,我的 columnName 将是“pk_key”,numPartitions 将是 10。 这些的 lowerBound 和 upperBound 应该是什么?
PS:我的实际记录数要高得多,我只需要了解它是如何工作的?
【问题讨论】:
标签: apache-spark