【发布时间】:2017-06-17 10:25:59
【问题描述】:
我在数据库中有一些数据,我想在 Spark 中使用 sparklyr 处理它。
我可以使用基于 DBI 的包将数据从数据库导入到 R
dbconn <- dbConnect(<some connection args>)
data_in_r <- dbReadTable(dbconn, "a table")
然后使用将数据从 R 复制到 Spark
sconn <- spark_connect(<some connection args>)
data_ptr <- copy_to(sconn, data_in_r)
对于大型数据集,复制两次速度很慢。
如何将数据直接从数据库复制到 Spark?
sparklyr 有几个 spark_read_*() 用于导入的函数,但与数据库无关。 sdf_import() 看起来有可能,但不清楚如何在这种情况下使用它。
【问题讨论】:
标签: r apache-spark dataframe sparklyr