【发布时间】:2016-11-18 01:23:00
【问题描述】:
我有一个复杂的猪脚本。从它的日志中,我可以看到它依次跨越 2 或 3 个 MR 进程,具体取决于数据量。 (假设是 A 和 B)
PS:只有A完成后才会触发B
这是预期的吗?有没有办法找出我的猪脚本的哪一部分触发了哪个地图减少过程? 我的最终目标是优化 pig 脚本以更快地运行。
我的任务的简单版本如下。这个 Pig 脚本会检查来自不同应用程序的大量日志文件。对于每个日志,它使用正则表达式解析数据并报告流量计数、每小时各种维度的平均响应时间等指标
代码真的很长,并且使用过滤器执行多个 for-each、一个联接和一个具有多个维度的大 GROUP BY。
【问题讨论】:
标签: mapreduce apache-pig