【问题标题】:Create a script-parser in PHP在 PHP 中创建脚本解析器
【发布时间】:2013-10-30 18:59:03
【问题描述】:

因为我有一个非常多余的配置文件格式。我发明了一种用于编写循环的自定义脚本格式,例如:

[Config Object]
{Loop 3
    Setting[i]  = Value[i]
}
OtherSetting=X

这将导致:

[Config Object]
Setting1     = Value1
Setting2     = Value2
Setting3     = Value3
OtherSetting = X

我的第一个想法是使用正则表达式,比如这个:

!{(.*?)}!is

在我尝试将它与嵌套循环一起使用之前,它的效果非常好 - 你肯定知道这个“哦,cr...时刻”

因为以下原因:

1: [Config Object]
2: *{*Loop 3
3:    Section[i]
4:    {Loop 3
5:        Setting[i]    = Value[i]
6:     *}*
7: }
8: OtherSetting=X

将引导正则表达式覆盖第 2 行和第 6 行之间的范围(用 *s 营销它们)

实际上我真的不知道如何解决这个问题,因为正则表达式在逻辑上是正确的。

那个?需要惰性运算符,因为没有它我会在另一个方向遇到同样的问题,并且无法编写两个后续循环。

一点点研究让我清楚正则表达式在这里不是正确的方向, 但我找不到任何 PHP 解决方案。 那么我如何才能在 PHP 中高效地解析我的“循环”脚本,例如获取一个带有循环的数组并用计算结果替换大括号内的命令?

【问题讨论】:

  • 你需要一个递归模式,看看this answer
  • 我现在记得我写了一个small parser,可能很有趣……
  • 是的,“如何创建解析器”是一个相当广泛的话题,很难用一个答案来回答。解析器通常是一个状态机,从那里开始。看看一些简单的解析器,比如 JSON。请参阅我的个人资料以获取简单的 Rison 解析器。为了创建一种简单的语言,您需要一个抽象语法树。查看 Twig 之类的东西,了解一个像样的 AST 解析器。
  • 结果应该是 3 个部分,每个部分包含 3 个设置。编辑:你为什么删除你的评论?
  • 是的,他也可以实现这一点。同样的东西,不同的概念允许 cmets 和东西呢? regex101.com/r/mP3xP0

标签: php regex parser-generator


【解决方案1】:

cmets 中提到了正确的解决方案。您需要实际编写一个编译器/解析器。我对编译器课程的记忆有些模糊,但这是您的处理方法。

基本概念是将输入转换为标记(这是正则表达式可以使用的地方)。这称为词法分析

所以:

[Config Object]
{Loop 3
   Section[i]
   {Loop 3
       Setting[i]    = Value[i]
   }
}
OtherSetting=X

变成(伪代码令牌,可能不完全是您需要的)

OPEN_BRACKET STRING(=Config Object) CLOSE_BRACKET
START_LOOP NUMBER(=3)
   STRING(=Section) OPEN_BRACKET STRING(=i) CLOSE_BRACKET
   START_LOOP NUMBER(=3)
       STRING(=Setting) OPEN_BRACKET STRING(=i) CLOSE_BRACKET EQUAL STRING(=Value) OPEN_BRACKET STRING(=i) CLOSE_BRACKET
   END_LOOP
END_LOOP
STRING(=OtherSetting) EQUAL STRING(=X)

因此,如果您的词法分析器为您提供了一个像上面这样的标记数组,您只需要将其 解析 为实际的 grammar (所以这是您不需要的地方想要使用正则表达式)。

你的语法(用于循环)是这样的(伪代码语法有点像 Bison,我可能会忘记部分/故意遗漏):

INDEXED_CONFIG_LINES: INDEXED_CONFIG_LINE | INDEXED_CONFIG_LINES INDEXED_CONFIG_LINE;
INDEXED_CONFIG_LINE: STRING OPEN_BRACKET STRING CLOSE_BRACKET EQUAL STRING OPEN_BRACKET STRING CLOSE_BRACKET;
LOOP: START_LOOP NUMBER LOOP_BODY END_LOOP;
LOOP_BODY: INDEXED_CONFIG_LINES | LOOP;

因此,您需要一个可以使用该语法构建语法树的解析器,而不是正则表达式。您基本上只是在构建一个状态机,在其中您将下一个标记转换为某个状态(例如在循环体中等)。

老实说,YAML 可能会满足您的需求,而不是重新发明轮子或诉诸正则表达式体操。但是如果你真的需要你提议的循环语法,你可以看看 Symfony Yaml 组件,看看它们是如何进行解析的。 https://github.com/symfony/Yaml

或者您可以查看 Twig 以了解另一个确实有循环的解析器:https://github.com/fabpot/Twig/tree/master/lib/Twig

【讨论】:

【解决方案2】:

我发现当我有一大堆相关的变量时(就像你做的那样),数组 是要走的路。然后你可以跳过递归和解析。例如:

$cars=array("A","B","C");
echo $cars[0]; // echos "A"

不要敲我的建议,但你不能在你的配置文件中使用一个数组吗?解析起来也更容易...

【讨论】:

  • 这当然是对的,但我想要创建的不是仅供个人使用,这意味着不知道 php 的用户必须使用它。抱歉没有提及。
  • @iceteea 所以你的解决方案是创建一种非 PHP 用户需要使用的自定义语言?仅凭这一点似乎不是一个很好的理由。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2013-05-18
  • 2017-02-04
  • 2011-08-08
  • 2016-07-30
  • 2017-03-16
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多