【发布时间】:2021-10-28 01:12:07
【问题描述】:
我目前正在开发一个天蓝色的日期砖笔记本,它将文件从存储容器读取到数据框中,然后将所有记录写入 MySQL 中的表。该文件可以有 200 万到 1000 万行。使用 read 填充我的数据框后,我的笔记本中有以下编写代码。
newFile.repartition(16).write
.format("jdbc").option("driver", "com.mysql.cj.jdbc.Driver")
.mode("append")
.option("url", s"${jdbc_url}")
.option("dbtable", pathToDBTable)
.option("user", s"user")
.option("password", s"pass")
.save()
我玩过分区并决定使用 16 个,因为我的集群将有 16 个内核。除此之外,还有一种更快的方法可以使用 write 将所有这些数据插入到我的数据库中吗?或者任何其他建议的方法来尝试在 azure databricks 笔记本中?目前处理 200 万行文件需要 10-15 分钟。
【问题讨论】:
标签: scala databricks azure-databricks