【发布时间】:2019-07-10 18:03:48
【问题描述】:
我正在用分区拼花写一个大表(大约 1.2b 行),我使用状态(如美国州)作为分区键。问题是存在大量空状态值。此表通常按状态查询,因此具有空状态的大分区不是问题,但我在更有效地生成表时遇到了麻烦。
我尝试使用非空状态创建表,然后插入空值,但据我所知,所有空值仍然只是放在一个大分区中,因此发送给一个工作人员。
如果有一种方法可以插入特定的分区,那就太好了。就像我的示例一样,写入非空状态,然后将剩余的记录插入到 state=null 或 hive_default_partition 中,这种方式仍然可以跨集群并行化。
【问题讨论】:
标签: sql apache-spark partitioning skew