【发布时间】:2013-06-13 22:47:50
【问题描述】:
我正在尝试让看似非常基本的 Marpa 语法起作用。我使用的代码如下:
use strict;
use warnings;
use Marpa::R2;
use Data::Dumper;
my $grammar = Marpa::R2::Scanless::G->new(
{
source => \(<<'END_OF_SOURCE'),
:start ::= ExprSingle
ExprSingle ::= Expr AndExpr
Expr ~ word
AndExpr ~ word*
word ~ [\w]+
:discard ~ ws
ws ~ [\s]+
END_OF_SOURCE
}
);
my $reader = Marpa::R2::Scanless::R->new(
{
grammar => $grammar,
}
);
my $input = 'foo';
$reader->read(\$input);
my $value = $reader->value;
print Dumper $value;
这会打印出$VAR1 = \'foo';。所以它可以很好地识别一个单词。但我想让它识别一串单词
my $input='foo bar'
现在脚本打印:
Error in SLIF G1 read: Parse exhausted, but lexemes remain, at position 4
我认为这是因为ExprSingle 使用~(匹配)运算符,这使其成为标记化级别G0 的一部分,而不是结构级别G1; :discard 规则允许 G1 规则之间有空格,而不是 G0 规则。所以我像这样改变语法:
ExprSingle ::= Expr AndExpr
现在不打印任何警告,但结果值为undef,而不是包含'foo' 和'bar' 的内容。老实说,我不确定这意味着什么,因为在此之前,失败的解析会引发实际错误。
我尝试更改语法以进一步区分我认为的 G0 和 G1 规则,但仍然没有运气:
:start ::= ExprSingle
ExprSingle ::= Expr AndExpr
Expr ::= token
AndExpr ::= token*
token ~ word
word ~ [\w]+
:discard ~ ws
ws ~ [\s]+
最终的值还是undef。 trace_terminals 显示 'foo' 和 'bar' 都被接受为令牌。我需要做什么来修复这个语法(我的意思是获取一个包含字符串 'foo' 和 'bar' 而不仅仅是 undef 的值)?
【问题讨论】:
标签: perl parsing tokenize marpa