spark_read_parquet() 中的模式选项答案

【问题标题】：Schema option in spark_read_parquet()spark_read_parquet() 中的模式选项
【发布时间】：2018-03-16 16:05:47
【问题描述】：

我对 R 和 spark 还是很陌生。我想使用以下代码读取镶木地板文件。任何人都知道如何在那里指定架构？

 library(sparklyr)

 sc <- spark_connect(master = "yarn",
                     appname = "test") 

 df <- spark_read_parquet(sc,
                     "name",
                     "path/to/the/file",
                      repartition = 0,
                      schema = "?")

我查看了链接https://spark.rstudio.com/reference/spark_read_parquet/，没有关于如何在函数中设置架构以优化它的任何细节或示例。

【问题讨论】：

标签： spark-dataframe sparkr sparklyr

【解决方案1】：

如果您只是尝试读取 parquet 文件，则不需要使用模式，它只是一个可用选项。以下代码应该可以工作。

df <- spark_read_parquet(sc,
                 "name",
                 "path/to/the/file",
                  repartition = 0,
                  schema = Null)

但是，如果您想使用架构，则有很多选项，选择合适的选项取决于您的数据以及您使用它的目的。但是请尝试在没有架构选项的情况下运行您的代码，看看这是否适用于您的数据。

【讨论】：

【解决方案2】：

试试

tbl_change_db(sc, "dbName")

如果你使用的是 RStudio，那么点击 sn-p 右上角的刷新按钮

【讨论】：