【问题标题】:Pig: Splitting large large file into multiple smaller filesPig:将大文件拆分为多个小文件
【发布时间】:2013-07-19 00:11:32
【问题描述】:

我需要拆分由另一个 Pig 脚本生成的输出部分文件,并生成每个包含 1000 行的组。这些组将发布到 Web 服务以进行进一步处理。数据之间没有关系,因此我无法将数据分组到特定字段。

如何在 Pig 中做到这一点?

【问题讨论】:

    标签: hadoop apache-pig


    【解决方案1】:

    如果拆分与数据无关,为什么还要使用 Pig 或 MapReduce?作为替代方案,如果我没有误解,您可以使用标准拆分程序来拆分数据。例如:

    cat part-* | split -d -l 1000 - result-
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-09-23
      • 1970-01-01
      • 1970-01-01
      • 2014-06-06
      • 1970-01-01
      • 2017-08-21
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多