【问题标题】:How to to set default file format with spark-submit command如何使用 spark-submit 命令设置默认文件格式
【发布时间】:2022-12-25 21:03:40
【问题描述】:

我想使用不是 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 的默认格式(当前,当我尝试创建表时 Spark 使用的默认格式)。 具体来说,我正在寻找一种不对 Spark 代码中的格式进行硬编码的 CLI 配置,它与 spark-sql --hiveconf hive.default.fileformat=<format> 配置同源,但用于 spark-submit 命令。

我找到的最接近spark-submit的配置是Custom Configurations for Hive and Hadoop,但是这些都不行,结果是一样的。

自定义配置示例:

spark-submit script.py \
     --conf spark.hive.default.fileformat=Parquet \
     --conf spark.hive.default.fileformat.managed=Parquet \

我知道有多种方法可以使用 Spark Conf 或 Spark-sql 'STORE AS' 设置格式,但这不是我需要的,因为这些是在文件中进行的配置。

先感谢您。

【问题讨论】:

    标签: apache-spark pyspark hive


    【解决方案1】:

    如果仍然相关,我自己也在那个区域玩耍并发现了一些东西。

    您可以将默认的provider 更改为不是 Hive,然后更改默认源。两者都是 spark 的“常规”属性,因此它们可能会在命令行中工作:

    spark.sql.legacy.createHiveTableByDefault=false
    spark.sql.sources.default=parquet  # this is the default anyways
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-08-16
      • 2017-08-05
      • 1970-01-01
      • 2017-06-23
      • 2011-02-19
      • 2013-09-12
      • 2011-08-12
      相关资源
      最近更新 更多