【发布时间】:2015-09-04 23:56:43
【问题描述】:
我正在开发一个可以读取和解析自定义日志文件的 Spark/Scala 应用程序。我在解析多行日志条目时遇到问题。这是我的代码的 sn-p:
case class MLog(dateTime: String, classification: String, serverType: String, identification:String, operation: String)
val PATTERN = """(?s)(\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2},\d{3})\s+(\w+)s+\[(.*)\]\s+\[(.*)\]\s+(.*)"""
def parseLogLine(log: String): MLog={
val res = PATTERN.findFirstMatchIn(log)
if (res.isEmpty) {
throw new RuntimeException("Cannot parse log line: " + log)
MLog(m.group(1),m.group(2),m.group(3),m.group(4),m.group(5))
}
sc.textFile("/mydirectory/logfile").map(parseLogLine).foreach(println)
日志文件中的某些条目跨越多行。正则表达式适用于单行条目,但是当读取多行条目时,如下所示,
2015-08-31 00:10:17,682 WARN [ScheduledTask-10] [name=custname;mid=9999;ds=anyvalue;] datasource - Scheduled DataSource import failed.
com.xxx.common.service.ServiceException: system failure: Unable to connect to ANY server: LdapDataSource{id=xxx, type=xxx, enabled=true, name=xxx, host=xxx port=999, connectionType=ssl, username=xxx, folderId=99999}
我收到此错误:
无法解析日志行:com.xxx.common.service.ServiceException:系统故障:无法连接到任何服务器:LdapDataSource{id=xxx, type=xxx, enabled=true, name=xxx, host=xxx 端口=999,connectionType=ssl,username=xxx,folderId=99999}
如何让 Spark 从日志文件中读取多行日志条目?
【问题讨论】:
-
单个文件有多大?这些可以装在一个工人身上吗?
-
是的。该文件很小 - 大约 40MB。该函数将打印出单行条目,但是当它到达多行条目时,它会失败并出现我提到的错误。
标签: regex scala apache-spark multiline