【发布时间】:2017-10-17 03:30:43
【问题描述】:
我知道sparklyr有以下读取文件的方法:
spark_read_csvspark_read_parquetspark_read_json
读取orc文件怎么样?这个库还支持吗?
我知道我可以在 SparkR 中使用 read.orc 或 this solution,但我想将我的代码保留在 sparklyr 中。
【问题讨论】:
标签: r apache-spark sparkr sparklyr orc
我知道sparklyr有以下读取文件的方法:
spark_read_csvspark_read_parquetspark_read_json读取orc文件怎么样?这个库还支持吗?
我知道我可以在 SparkR 中使用 read.orc 或 this solution,但我想将我的代码保留在 sparklyr 中。
【问题讨论】:
标签: r apache-spark sparkr sparklyr orc
您可以按照我在Transfer data from database to Spark using sparklyr 的回答中描述的相同方式使用低级 Spark API:
library(dplyr)
library(sparklyr)
sc <- spark_connect(...)
spark_session(sc) %>%
invoke("read") %>%
invoke("format", "orc") %>%
invoke("load", path) %>%
invoke("createOrReplaceTempView", name)
df <- tbl(sc, name)
其中name 是用于标识表的任意名称
在当前的sparklyr 版本中,您应该可以用spark_read_source 替换上面的内容:
spark_read_source(sc, name, source = "orc", options = list(path = path))
【讨论】: