【发布时间】:2016-11-24 10:07:04
【问题描述】:
我是 pig 新手。我需要提取 catalina 日志,格式如下行。我需要我的程序使用可以读取从 INFO 开始的下一行的模式,但它不这样做。
A = LOAD 'catalina. USING TextLoader AS (line:chararray);
B = FOREACH A GENERATE FLATTEN(REGEX_EXTRACT_ALL(line,'^([a-zA-z]{3}\\s[0-9]{1,2},\\s[0-9]{4}\\s[0-9]{1,2}:[0-9]{2}:[0-9]{2}\\s[A-Z]{2})(.*)INFO:(.*)$'))
STORE B IN 'output' ;
输入:
Nov 3, 2016 11:00:06 AM org.apache.catalina.startup.Catalina load INFO: Initialization processed in 470 ms.
【问题讨论】:
标签: apache-pig