【发布时间】:2018-03-02 22:42:54
【问题描述】:
我想在数据级别进行合并,以减少条带的数量。这是因为我每小时处理文件,并且每个分区创建了许多较小的 ORC 文件。我知道 hive 连接可以在条带级别合并文件。如果我连接,则文件合并仅发生在条带级别,就像添加了许多条带一样。我最终得到了只有 2-3 行的多条条纹。我希望有更少的条纹,里面有更多的行。
【问题讨论】:
我想在数据级别进行合并,以减少条带的数量。这是因为我每小时处理文件,并且每个分区创建了许多较小的 ORC 文件。我知道 hive 连接可以在条带级别合并文件。如果我连接,则文件合并仅发生在条带级别,就像添加了许多条带一样。我最终得到了只有 2-3 行的多条条纹。我希望有更少的条纹,里面有更多的行。
【问题讨论】:
merge.orcfile.stripe.level=false 应该可以工作,但我还没有让它在我们的集群上工作。
我必须编写一个自定义程序来读取和组合文件。
【讨论】: