【问题标题】:Partitioning in spark while reading from RDBMS via JDBC通过 JDBC 从 RDBMS 读取时在 Spark 中进行分区
【发布时间】:2017-08-26 07:35:47
【问题描述】:

我在集群模式下运行 spark 并通过 JDBC 从 RDBMS 读取数据。

根据 Spark docs,这些分区参数描述了在从多个 worker 并行读取时如何对表进行分区:

  • partitionColumn
  • lowerBound
  • upperBound
  • numPartitions

这些是可选参数。

如果我不指定这些会发生什么:

  • 只有 1 个工作人员读取全部数据?
  • 如果还是并行读取,它是如何分区数据的?

【问题讨论】:

标签: apache-spark jdbc apache-spark-sql partitioning


【解决方案1】:

如果您未指定 {partitionColumnlowerBoundupperBoundnumPartitions} 或 {predicates},Spark 将使用单个执行程序并创建单个非空分区。所有数据都将使用单个事务处理,读取既不会分布式也不会并行化。

另见:

【讨论】:

  • 通过JDBC写呢,df.write.mode(SaveMode.Append).jdbc("", "", )跨度>
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2022-10-13
  • 1970-01-01
  • 2021-03-05
  • 1970-01-01
  • 2020-08-21
  • 1970-01-01
相关资源
最近更新 更多