【问题标题】:Is it possible to read ORC file to Spark Data Frame in sparklyr?是否可以在 sparklyr 中将 ORC 文件读取到 Spark Data Frame?
【发布时间】:2017-10-17 03:30:43
【问题描述】:

我知道sparklyr有以下读取文件的方法:

  • spark_read_csv
  • spark_read_parquet
  • spark_read_json

读取orc文件怎么样?这个库还支持吗?

我知道我可以在 SparkR 中使用 read.orcthis solution,但我想将我的代码保留在 sparklyr 中。

【问题讨论】:

    标签: r apache-spark sparkr sparklyr orc


    【解决方案1】:

    您可以按照我在Transfer data from database to Spark using sparklyr 的回答中描述的相同方式使用低级 Spark API:

    library(dplyr)
    library(sparklyr)
    
    sc <- spark_connect(...)
    
    spark_session(sc) %>% 
      invoke("read") %>% 
      invoke("format", "orc") %>%
      invoke("load", path) %>% 
      invoke("createOrReplaceTempView", name)
    
    df <- tbl(sc, name)
    

    其中name 是用于标识表的任意名称

    在当前的sparklyr 版本中,您应该可以用spark_read_source 替换上面的内容:

    spark_read_source(sc, name, source = "orc", options = list(path = path))
    

    【讨论】:

      猜你喜欢
      • 2017-08-07
      • 2015-08-27
      • 2019-06-06
      • 1970-01-01
      • 2018-01-31
      • 2019-05-28
      • 2015-12-19
      • 2018-08-29
      • 2015-12-04
      相关资源
      最近更新 更多