【发布时间】:2021-01-10 22:53:54
【问题描述】:
我在使用孤岛语法和非贪婪规则时遇到问题,该规则用于消耗“除了我想要的一切”。
期望的结果:
我的输入文件是一个 C 头文件,其中包含函数声明以及 typedef、结构、cmets 和预处理器定义。 我想要的输出只是函数声明的解析和后续转换。我想忽略其他所有内容。
设置和我的尝试:
我试图进行 lex 和解析的头文件非常统一和一致。
每个函数声明前面都有一个链接宏PK_linkage_m,所有函数都返回相同的类型PK_ERROR_code_t,例如:
PK_linkage_m PK_ERROR_code_t PK_function(...);
这些标记只出现在函数声明的开头。
我将其视为孤岛语法,即文本海洋中的函数声明。
我尝试使用链接标记PK_linkage_m 来指示“TEXT”的结束,并使用PK_ERROR_code_t 标记作为函数声明的开始。
观察到的问题:
虽然对单个函数声明进行词法分析和解析是有效的,但当我在一个文件中有多个函数声明时它会失败。令牌流显示“所有内容+所有函数声明+最后一个函数声明的PK_ERROR_code_t”作为文本消费,然后只有文件中的last函数声明被正确解析。
我的一句话总结是:我的非贪婪语法规则在PK_ERROR_code_t 消耗太多之前消耗所有东西。
我可能错误地认为是解决方案:
以某种方式修复我的词法分析器非贪婪规则,使其消耗所有内容,直到找到 PK_linkage_m 令牌。我的非贪婪规则似乎消耗太多了。
我没有尝试过的:
由于这是我的第一个 ANTLR 项目,也是我很长一段时间以来的第一个语言解析项目,如果我错了并且越来越错,我会非常乐意重写它。我正在考虑使用行终止符来跳过不以换行符开头的所有内容,但我不确定如何使其工作,也不确定它有何根本不同。
这是我的词法分析器文件 KernelLexer.g4:
lexer grammar KernelLexer;
// lexer should ignore everything except function declarations
// parser should never see tokens that are irrelevant
@lexer::members {
public static final int WHITESPACE = 1;
}
PK_ERROR: 'PK_ERROR_code_t' -> mode(FUNCTION);
PK_LINK: 'PK_linkage_m';
//Doesnt work. Once it starts consuming, it doesnt stop.
TEXT_SEA: .*? PK_LINK -> skip;
TEXT_WS: ( ' ' | '\r' | '\n' | '\t' ) -> skip;
mode FUNCTION;
//These constants must go above ID rule because we want these to match first.
CONST: 'const';
OPEN_BLOCK: '(';
CLOSE_BLOCK: ');' -> mode(DEFAULT_MODE);
COMMA: ',';
STAR: '*';
COMMENTED_NAME: '/*' ID '*/';
COMMENT_RECEIVED: '/* received */' -> skip;
COMMENT_RETURNED: '/* returned */' -> skip;
COMMENT: '/*' .*? '*/' -> skip;
ID : ID_LETTER (ID_LETTER | DIGIT)*;
fragment ID_LETTER: 'a'..'z' | 'A'..'Z' | '_';
fragment DIGIT: '0'..'9';
WS: ( ' ' | '\r' | '\n' | '\t' ) -> skip;//channel(1);
这是我的解析器文件 KernelParser.g4:
parser grammar KernelParser;
options { tokenVocab=KernelLexer; }
file : func_decl+;
func_decl : PK_ERROR ID OPEN_BLOCK param_block CLOSE_BLOCK;
param_block: param_decl*;
param_decl: type_decl COMMENTED_NAME COMMA?;
type_decl: CONST? STAR* ID STAR* CONST?;
这是一个简单的输入文件示例:
/*some stuff*/
other stuff;
PK_linkage_m PK_ERROR_code_t PK_CLASS_ask_superclass
(
/* received */
PK_CLASS_t /*class*/, /* a class */
/* returned */
PK_CLASS_t *const /*superclass*/ /* immediate superclass of class */
);
/*some stuff*/
blar blar;
PK_linkage_m PK_ERROR_code_t PK_CLASS_is_subclass
(
/* received */
PK_CLASS_t /*may_be_subclass*/, /* a potential subclass */
PK_CLASS_t /*class*/, /* a class */
/* returned */
PK_LOGICAL_t *const /*is_subclass*/ /* whether it was a subclass */
);
more stuff;
这是令牌输出:
line 28:0 token recognition error at: 'more stuff;\r\n'
[@0,312:326='PK_ERROR_code_t',<'PK_ERROR_code_t'>,18:13]
[@1,328:347='PK_CLASS_is_subclass',<ID>,18:29]
[@2,350:350='(',<'('>,19:0]
[@3,369:378='PK_CLASS_t',<ID>,21:0]
[@4,390:408='/*may_be_subclass*/',<COMMENTED_NAME>,21:21]
[@5,409:409=',',<','>,21:40]
[@6,439:448='PK_CLASS_t',<ID>,22:0]
[@7,460:468='/*class*/',<COMMENTED_NAME>,22:21]
[@8,469:469=',',<','>,22:30]
[@9,512:523='PK_LOGICAL_t',<ID>,24:0]
[@10,525:525='*',<'*'>,24:13]
[@11,526:530='const',<'const'>,24:14]
[@12,533:547='/*is_subclass*/',<COMMENTED_NAME>,24:21]
[@13,587:588=');',<');'>,25:0]
[@14,608:607='<EOF>',<EOF>,29:0]
【问题讨论】: