【问题标题】:PySpark - Write data frame into Hive tablePySpark - 将数据帧写入 Hive 表
【发布时间】:2020-11-26 01:57:11
【问题描述】:

我有一个空的 Hive 表。我有 18 个作业正在运行,每个作业都可能有一个数据框,我需要将其添加到 Hive 表中并使用 parquet 文件。

我所拥有的是这样的:

df2.write.parquet(SOME_HDFS_DIR/my_table_dir)

但这似乎不太对劲。我是否必须添加一些.parquet 文件名并每次都继续附加它?我见过一些语法是 Scala 而不是 Python。

【问题讨论】:

    标签: python dataframe pyspark hive parquet


    【解决方案1】:

    df.write.parquet 将覆盖该位置的拼花文件,但有选项,

    df.write.mode('append').parquet('path')
    

    然后它会为路径创建一个新的 parquet 文件,以便您可以从表中读取数据。

    【讨论】:

    • 表已经创建。我只想将数据(数据框)插入其中。
    • 有没有办法像 `df2.write.format("parquet)".insertInto(___) 那样做?
    猜你喜欢
    • 1970-01-01
    • 2018-04-22
    • 2020-10-06
    • 2018-06-24
    • 2019-10-13
    • 2017-07-22
    • 2018-11-21
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多