【发布时间】:2019-02-22 07:13:30
【问题描述】:
我正在研究需要一次性卸载 JDBC 数据源的用例,在我的情况下它是 SAP Hana 数据库。我想将整个 SAP Hana 数据库卸载到 HDFS/MapR FS。最初我们尝试过sqoop,但是Sqoop的问题在于主键字段,并且通过--split-by论证只支持一个主键字段。然后我们想计划利用 Spark 来做数据集的 Sqoop。浏览 spark 中可用的各种 JDBC 选项,例如这个帖子https://forums.databricks.com/questions/14963/problems-doing-parallel-read-from-jdbc.html。它也只接受一列,而在 SAP Hana 表的情况下,它主要由共轭键(形成主键的多个键)组成。
spark 如何读取 JDBC 源代码?它是否从表中读取所有数据,然后在工作人员之间按内存中的分区进行拆分?
如何在读取 JDBC SAP Hana 源时指定这样的选项并通过减少 OOM 错误在此处进行并行读取(如果上面的问题 #1 为是)
有些 SAP Hana 表甚至没有主键,这就是带来大数据集的问题。
请帮助我形成正确的方法和策略。
提前致谢。
马尼什
【问题讨论】:
标签: apache-spark dataframe jdbc parallel-processing