【发布时间】:2020-10-10 01:22:11
【问题描述】:
每次进程运行时我都会更新一个数据帧记录,这意味着每次进程完成时我都会有一个一行 4 列的数据帧。 然后我将使用 dataframe write 和 parquet 格式将它插入到 hive 表中。 由于一次只有一条记录,我在 hfds 的 table 文件夹中看到了很多小文件。
当我将数据写入 hive 表时,您能否告诉我如何减少并将其写入同一个文件(parquet 文件)??
hdfs location: user_id/employe_db/market_table/
from:
part-04498-f33fc4b5-47d9-4d14-b37e-8f670cb2c53c-c000.snappy.parquet
part-04497-f33fc4b5-47d9-4d14-b37e-8f670cb2c53c-c000.snappy.parquet
part-04496-f33fc4b5-47d9-4d14-b37e-8f670cb2c53c-c000.snappy.parquet
part-04496-f33fc4b5-47d9-4d14-b37e-8f670cb2c53c-c000.snappy.parquet
part-04450-f33fc4b5-47d9-4d14-b37e-8f670cb2c53c-c000.snappy.parquet
part-04449-f33fc4b5-47d9-4d14-b37e-8f670cb2c53c-c000.snappy.parquet
to:
part-03049-f33fc4b5-47d9-4d14-b37e-8f670cb2c53c-c000.snappy.parquet
如何将镶木地板文件的数量减少到固定数量的更少文件并将新数据加载/写入现有文件? part-04499-f33fc4b5-47d9-4d14-b37e-8f670cb2c53c-c000.snappy.parquet
【问题讨论】:
标签: dataframe hadoop pyspark hive hdfs