【发布时间】:2019-12-14 23:18:05
【问题描述】:
案例:
part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet
我在代码中找不到 parquet 文件的一些规则。 谁能解释一下?
【问题讨论】:
标签: apache-spark parquet
案例:
part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet
我在代码中找不到 parquet 文件的一些规则。 谁能解释一下?
【问题讨论】:
标签: apache-spark parquet
在这种情况下:
part-00000 表示拆分(一个)分区号。
-deb4a3d4-d8c3-4983-8756-ad7e0b29e780 表示随机 UUID 以允许 Spark Actions 中的并发写入进程不发生冲突。
“c000”表示一个计数器,指示该分区的文件已被写入的次数。这是它是零,它指望。说实话,不知道如果超过 999 会发生什么。
【讨论】: