【发布时间】:2020-11-26 01:57:11
【问题描述】:
我有一个空的 Hive 表。我有 18 个作业正在运行,每个作业都可能有一个数据框,我需要将其添加到 Hive 表中并使用 parquet 文件。
我所拥有的是这样的:
df2.write.parquet(SOME_HDFS_DIR/my_table_dir)
但这似乎不太对劲。我是否必须添加一些.parquet 文件名并每次都继续附加它?我见过一些语法是 Scala 而不是 Python。
【问题讨论】:
标签: python dataframe pyspark hive parquet