【发布时间】:2018-08-23 12:40:47
【问题描述】:
我正在使用 Apache Spark 进行数据集加载、处理以及使用 JDBC 驱动程序将数据集输出到 Oracle DB。
我正在使用 spark jdbc write 方法将数据集写入数据库。 但是,在将数据集写入数据库的同时,将 10 行和 1000 万行写入数据库的不同表需要相同的时间。 我想知道如何使用 spark 调整这种写入方法的性能,以便我们可以明智地使用 apache spark 计算引擎。否则,使用它进行快速计算过程没有任何好处;如果写入数据集需要时间进入数据库。 写10行10M行的代码如下:
要写 10 行
finalpriceItemParamsGroupTable.distinct().write().mode("append").format("jdbc").option("url", connection).option("dbtable", CI_PRICEITEM_PARM).save();
要写入 10M 行
finalPritmOutput.distinct().write().mode("append").format("jdbc").option("url", connection).option("dbtable", CI_TXN_DTL).save();
附上apache spark Dashb的截图 董事会Spark Stages Screenshot
如果有人可以提供帮助会有所帮助...
【问题讨论】:
标签: scala apache-spark pyspark apache-spark-sql pyspark-sql