Pig：将大文件拆分为多个小文件

【问题标题】：Pig: Splitting large large file into multiple smaller filesPig：将大文件拆分为多个小文件
【发布时间】：2013-07-19 00:11:32
【问题描述】：

我需要拆分由另一个 Pig 脚本生成的输出部分文件，并生成每个包含 1000 行的组。这些组将发布到 Web 服务以进行进一步处理。数据之间没有关系，因此我无法将数据分组到特定字段。

如何在 Pig 中做到这一点？

【问题讨论】：

【解决方案1】：

如果拆分与数据无关，为什么还要使用 Pig 或 MapReduce？作为替代方案，如果我没有误解，您可以使用标准拆分程序来拆分数据。例如：

cat part-* | split -d -l 1000 - result-

【讨论】：