【发布时间】:2018-04-24 07:35:04
【问题描述】:
我有一个结构如下的 html 文件:
<!doctype html public "-//w3c//dtd html 4.0transitional//en">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Author" content="ERA">
<LINK REL=STYLESHEET TYPE="text/css" HREF="Style_Sheets/ERA_Internet_Printer.css">
</head>
<body>
<pre>
<font face="courier new" size=-4> 14V-IG-TEST-DATA - SERVC - EXEC# 4515
[11| Blubb,abcons, Port: 18 For: abcons
For period : GE 08/04/18 AND LE 11/04/18 OR GE 11/04/18 AND LE 11/05/18
01:45:40 11-04-18 - Page # 1
Serial#........................ 564561215
Make Desc...................... VW
Carline........................ MUX
Year........................... 2015
Cust# ........................ 512
License#....................... 78365HH
Open RO........................ R25625
EOR............................ EOR
Serial#........................ 2151512315
Make Desc...................... VOLKSWAGEN
Carline........................ VOLKSWAGEN
Year........................... 2017
Cust# ........................ 552
License#....................... DPA2151
Open RO........................ T52165
EOR............................ EOR
2 records listed.
</pre>
</body>
</html>
我想从文件中获取信息,例如“Key....Value”。 因此,我使用 Grok 在 AWS Glue 中创建了一个自定义分类器来获取信息。 分类器配置如下: Custom Classifier
所以 Grok Pattern 配置如下:
%{KEY:mykey}%{GREEDYDATA:myvalue}
使用自定义模式:
KEY ([a-zA-Z# 1-9]+\.+ )
每个 Grok 在线调试器(如 https://grokdebug.herokuapp.com/)都使用此配置从数据结构中获取信息。但是当我使用自定义分类器在 Glue 中启动爬虫时,它不会找到任何表或结构。
我做错了什么?
【问题讨论】:
标签: amazon-web-services logstash-grok aws-glue