【问题标题】:merge Orc File at Data Level not Stripe level在数据级别而不是条纹级别合并 Orc 文件
【发布时间】:2018-03-02 22:42:54
【问题描述】:

我想在数据级别进行合并,以减少条带的数量。这是因为我每小时处理文件,并且每个分区创建了许多较小的 ORC 文件。我知道 hive 连接可以在条带级别合并文件。如果我连接,则文件合并仅发生在条带级别,就像添加了许多条带一样。我最终得到了只有 2-3 行的多条条纹。我希望有更少的条纹,里面有更多的行。

【问题讨论】:

    标签: hadoop hive orc


    【解决方案1】:

    merge.orcfile.stripe.level=false 应该可以工作,但我还没有让它在我们的集群上工作。

    我必须编写一个自定义程序来读取和组合文件。

    【讨论】:

    • 嗨@Joel,我们尝试做同样的事情,但它与条带级合并一样好。我们有增量文件处理,这每天都会生成多个文件。我无法进行覆盖并创建不同的表 coz ,当表上发生覆盖时,此时数据将为空白。你的自定义程序有什么不同吗?感谢您的输入。非常感谢。
    • 我们的自定义程序跟踪它组合成一个临时文件的文件。然后它通过删除小文件并将大组合文件重命名到它的位置来执行交换。
    猜你喜欢
    • 1970-01-01
    • 2019-05-28
    • 1970-01-01
    • 1970-01-01
    • 2018-10-20
    • 2021-05-22
    • 2018-04-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多