【发布时间】:2017-11-08 03:08:58
【问题描述】:
我有下面的代码,它使用一个使用 Sparklyr 调用 spark SQL API 的包装函数对数据集进行 SQL 转换。然后我使用“invoke("createOrReplaceTempView", "name")" 将 Spark 环境中的表保存为 spark 数据框,以便在将来的函数调用中调用。然后我使用 dplyr 代码“mutate”调用配置单元函数“regexp_replace”将字母转换为数字 (0)。我他们需要再次调用 SQL 函数。
但是,我似乎必须使用 sparklyr 的“copy_to”功能。在大型数据集上,“copy_to”函数会导致以下错误:
Error: org.apache.spark.SparkException: Job aborted due to stage
failure: Total size of serialized results of 6 tasks (1024.6 MB) is
bigger than spark.driver.maxResultSize (1024.0 MB)
是否有替代“copy_to”的方法可以让我获得一个可以使用 SQL API 调用的 spark 数据帧?
这是我的代码L
sqlfunction <- function(sc, block) {
spark_session(sc) %>% invoke("sql", block)
}
sqlfunction(sc, "SELECT * FROM
test")%>%invoke("createOrReplaceTempView",
"name4")
names<-tbl(sc, "name4")%>%
mutate(col3 = regexp_replace(col2, "^[A-Z]", "0"))
copy_to(sc, names, overwrite = TRUE)
sqlfunction(sc, "SELECT * FROM
test")%>%invoke("createOrReplaceTempView",
"name5")
final<-tbl(sc, "name5")
【问题讨论】:
标签: r hive apache-spark-sql sparklyr