【问题标题】:Schema option in spark_read_parquet()spark_read_parquet() 中的模式选项
【发布时间】:2018-03-16 16:05:47
【问题描述】:

我对 R 和 spark 还是很陌生。我想使用以下代码读取镶木地板文件。任何人都知道如何在那里指定架构?

 library(sparklyr)

 sc <- spark_connect(master = "yarn",
                     appname = "test") 

 df <- spark_read_parquet(sc,
                     "name",
                     "path/to/the/file",
                      repartition = 0,
                      schema = "?")

我查看了链接https://spark.rstudio.com/reference/spark_read_parquet/,没有关于如何在函数中设置架构以优化它的任何细节或示例。

【问题讨论】:

    标签: spark-dataframe sparkr sparklyr


    【解决方案1】:

    如果您只是尝试读取 parquet 文件,则不需要使用模式,它只是一个可用选项。以下代码应该可以工作。

    df <- spark_read_parquet(sc,
                     "name",
                     "path/to/the/file",
                      repartition = 0,
                      schema = Null)
    

    但是,如果您想使用架构,则有很多选项,选择合适的选项取决于您的数据以及您使用它的目的。但是请尝试在没有架构选项的情况下运行您的代码,看看这是否适用于您的数据。

    【讨论】:

      【解决方案2】:

      试试

      tbl_change_db(sc, "dbName")
      

      如果你使用的是 RStudio,那么点击 sn-p 右上角的刷新按钮

      【讨论】:

        猜你喜欢
        • 2019-01-24
        • 1970-01-01
        • 1970-01-01
        • 2021-10-22
        • 1970-01-01
        • 1970-01-01
        • 2019-08-18
        • 2022-07-18
        • 1970-01-01
        相关资源
        最近更新 更多