使用 DCG 在 Prolog 中标记字符串答案

【问题标题】：Tokenizing a string in Prolog using DCG使用 DCG 在 Prolog 中标记字符串
【发布时间】：2015-09-01 16:26:44
【问题描述】：

假设我想标记一串由空格分隔的单词（符号）和数字。例如，标记"aa 11" 的预期结果将是[tkSym("aa"), tkNum(11)]。

我的第一次尝试是下面的代码：

whitespace --> [Ws], { code_type(Ws, space) }, whitespace.
whitespace --> [].

letter(Let)     --> [Let], { code_type(Let, alpha) }.
symbol([Sym|T]) --> letter(Sym), symbol(T).
symbol([Sym])   --> letter(Sym).

digit(Dg)        --> [Dg], { code_type(Dg, digit) }.
digits([Dg|Dgs]) --> digit(Dg), digits(Dgs).
digits([Dg])     --> digit(Dg).

token(tkSym(Token)) --> symbol(Token). 
token(tkNum(Token)) --> digits(Digits), { number_chars(Token, Digits) }.

tokenize([Token|Tokens]) --> whitespace, token(Token), tokenize(Tokens).
tokenize([]) --> whitespace, [].

在"aa bb" 上调用tokenize 给我留下了几个可能的回应：

 ?- tokenize(X, "aa bb", []).
 X = [tkSym([97|97]), tkSym([98|98])] ;
 X = [tkSym([97|97]), tkSym(98), tkSym(98)] ;
 X = [tkSym(97), tkSym(97), tkSym([98|98])] ;
 X = [tkSym(97), tkSym(97), tkSym(98), tkSym(98)] ;
 false.

然而，在这种情况下，只期望一个正确答案似乎是合适的。这是另一种更具确定性的方法：

whitespace --> [Space], { char_type(Space, space) }, whitespace.
whitespace --> [].

symbol([Sym|T]) --> letter(Sym), !, symbol(T).
symbol([])      --> [].
letter(Let)     --> [Let], { code_type(Let, alpha) }.

% similarly for numbers

token(tkSym(Token)) --> symbol(Token).

tokenize([Token|Tokens]) --> whitespace, token(Token), !, tokenize(Tokens).
tokenize([]) --> whiteSpace, [].

但有一个问题：虽然在"aa" 上调用的token 的单一答案现在是一个不错的列表，但tokenize 谓词最终会无限递归：

 ?- token(X, "aa", []).
 X = tkSym([97, 97]).

 ?- tokenize(X, "aa", []).
 ERROR: Out of global stack

我错过了什么？这个问题在 Prolog 中通常是如何解决的？

【问题讨论】：

关于命名的一条评论：我建议命名为tokens//1，这样你就有token//1和tokens//1，类似于digit//1和digits/1。这样，您可以避免使用命令式名称，这会暗示非终结符只能在一个方向上使用。 tokens//1 更具声明性，并且在其他方向需要非终结符时也有意义。
两个非常好的学习DCG的资源：第一，Markus Triska's DCG Primer；然后，查看作为 SWI-Prolog 源的一部分提供的（有点难找到）collection of generally useful DCG rules。两者都很小，包含很多非常有用的代码示例/配方。

标签： prolog dcg

【解决方案1】：

根本问题是，在您的第二个版本中，token//1 也为“空”令牌成功：

?- phrase(token(T), "").
T = tkSym([]).

因此，无意中，以下操作也成功了，任意数量的令牌也是如此：

?- phrase((token(T1),token(T2)), "").
T1 = T2, T2 = tkSym([]).

要解决这个问题，我建议您调整定义，使标记必须至少包含一个词法元素，这也是典型的。确保至少描述一个元素的一种好方法是将 DCG 规则分成两组。例如，显示为symbol///1：

symbol([L|Ls]) --> letter(L), symbol_r(Ls).

symbol_r([L|Ls]) --> letter(L), symbol_r(Ls).
symbol_r([])     --> [].

这样，您可以避免无限递归，这种递归会无休止地消耗空令牌。

其他要点：

始终使用phrase/2 以可移植的方式访问 DCG，即独立于任何特定 Prolog 系统使用的实际实现方法。

最后 DCG 子句中的[] 是多余的，您可以将其删除。

另外，避免使用太多!/0。可以提交第一个匹配的标记化，但只能在一个地方执行，例如通过 once/1 包裹 phrase/2 调用。

关于命名，请参阅我上面的评论。我建议使用tokens//1 使其更具声明性。示例查询，使用上述symbol//1的定义：

?- phrase(tokens(Ts), "").
Ts = [].

?- phrase(tokens(Ls), "a").
Ls = [tkSym([97])].

?- phrase(tokens(Ls), "a b").
Ls = [tkSym([97]), tkSym([98])].

【讨论】：

我尝试在 SWI-Prolog 中查询 phrase(tokens(Ls), "a b").，但它产生了错误消息：ERROR: Type error: `list' expected, found `"a b"' (a string)。
遗憾的是，SWI-Prolog 不是符合 ISO 标准的系统。使用命令行标志--traditional 调用它，或者将以下内容添加到您的程序中：:- set_prolog_flag(double_quotes, codes).。更具可读性的是：:- set_prolog_flag(double_quotes, chars).。我建议将此添加到您使用 DCG 的所有程序中。