【发布时间】:2022-12-25 21:03:40
【问题描述】:
我想使用不是 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 的默认格式(当前,当我尝试创建表时 Spark 使用的默认格式)。
具体来说,我正在寻找一种不对 Spark 代码中的格式进行硬编码的 CLI 配置,它与 spark-sql --hiveconf hive.default.fileformat=<format> 配置同源,但用于 spark-submit 命令。
我找到的最接近spark-submit的配置是Custom Configurations for Hive and Hadoop,但是这些都不行,结果是一样的。
自定义配置示例:
spark-submit script.py \
--conf spark.hive.default.fileformat=Parquet \
--conf spark.hive.default.fileformat.managed=Parquet \
我知道有多种方法可以使用 Spark Conf 或 Spark-sql 'STORE AS' 设置格式,但这不是我需要的,因为这些是在文件中进行的配置。
先感谢您。
【问题讨论】:
标签: apache-spark pyspark hive