【发布时间】:2013-12-19 07:58:32
【问题描述】:
我有这些行的日志:
in24.inetnebr.com - - [01/Aug/1995:00:00:01 -0400] "GET /shuttle/missions/sts-68/news/sts-68-mcc-05.txt HTTP/1.0" 200 1839
其中第一列 (in24.inetnebr.com) 是主机,第二列 (01/Aug/1995:00:00:01 -0400) 是时间戳,第三列 (GET /shuttle/missions/sts-68/news/sts-68-mcc-05.txt HTTP/1.0) 是下载页面。
如何使用 Pig 找到每个主机的最后两个下载页面?
非常感谢您的帮助!
【问题讨论】:
-
我取得了一个小小的进展,现在我有了 (casted, the date is date): (host, date, address) 的行,如何为每个主机选择最后两个地址?谢谢提前。
标签: hadoop apache-pig log-analysis