提升灵气预期答案

【问题标题】：Boost Spirit Qi Expectation提升灵气预期
【发布时间】：2013-08-23 09:54:15
【问题描述】：

我对灵气比较陌生，正在尝试解析一种类似汇编的语言。

比如我要解析：

Func Ident{
    Mov name, "hello"
    Push 5
    Exit
}

到目前为止，一切都很好。我可以正确解析它。但是，错误处理程序有时会出现奇怪的错误位置。以如下错误代码为例：

Func Ident{
    Mov name "hello" ; <-- comma is missing here
    Push 5
    Exit
}

以下是此解析中涉及的规则：

    gr_function = lexeme["Func" >> !(alnum | '_')] // Ensure whole words
                    > gr_identifier
                    > "{"
                    > *( gr_instruction
                            |gr_label
                        |gr_vardecl
                        |gr_paramdecl)
                    > "}";

    gr_instruction = gr_instruction_names
                     > gr_operands;

    gr_operands = -(gr_operand % ',');

解析器会注意到错误，但会抱怨在 mov 之后缺少“}”。我觉得问题出在“Func”的定义中，但无法确定。 我希望解析器抱怨缺少“，” 如果它抱怨相应的错误是可以的，但它绝对应该指出一个缺少的逗号是罪魁祸首。

我尝试过以下变体：

gr_operands = -(gr_operand 
                >> *(','
                     > gr_operand)
                );

和其他人一样，但有其他奇怪的错误。

有没有人知道如何说“好吧，你可能有一个没有操作数的指令，但是如果你找到一个，并且在下一个之前没有逗号，那么在逗号处失败”？

更新

感谢您到目前为止的回答。 gr_operand 定义如下：

    gr_operand = ( gr_operand_intlit
                  |gr_operand_flplit
                  |gr_operand_strlit
                  |gr_operand_register
                  |gr_operand_identifier);

    gr_operand_intlit = int_;

    gr_operand_flplit = double_;

    gr_operand_strlit = '"'
                        > strlitcont
                        > '"'
                    ;

    gr_operand_register = gr_register_names;

    // TODO: Must also not accept the keywords from the statement grammar
    gr_operand_identifier = !(gr_instruction_names | gr_register_names)
                            >> raw[
                                    lexeme[(alpha | '_') >> *(alnum | '_')]
                                  ];

    escchar.name("\\\"");
    escchar     = '\\' >> char_("\"");

    strlitcont.name("String literal content");
    strlitcont  = *( escchar | ~char_('"') );

【问题讨论】：

它无法通过任何规则解析“名称”，因此需要在“Mov”和“}”之后的*(...)fails。您能否给出gr_instruction 的完整定义以及所需的所有规则？
完成。这是 gr_instruction 所依赖的所有内容。

标签： c++ parsing boost boost-spirit boost-spirit-qi

【解决方案1】：

您需要明确说明什么是操作数。我猜到了：

gr_operand    = gr_identifier | gr_string;
gr_string     = lexeme [ '"' >> *("\"\"" | ~char_("\"")) >> '"' ];

不相关，但您可能希望明确换行符开始新语句（使用 blank_type 作为跳过符）：

        >> "{"
        >> -(
                  gr_instruction
                | gr_label
                | gr_vardecl
                | gr_paramdecl
            ) % eol
        > "}";

现在，解析器将能够抱怨它在解析失败时需要换行符。

我使用您在原始帖子中的草图制作了一个完整的工作示例。

看到它live on Coliru：

#define BOOST_SPIRIT_DEBUG
#include <boost/spirit/include/qi.hpp>

namespace qi    = boost::spirit::qi;

template <typename It, typename Skipper = qi::blank_type>
    struct parser : qi::grammar<It, Skipper>
{
    parser() : parser::base_type(start)
    {
        using namespace qi;

        start = lexeme["Func" >> !(alnum | '_')] > function;
        function = gr_identifier
                    >> "{"
                    >> -(
                              gr_instruction
                            //| gr_label
                            //| gr_vardecl
                            //| gr_paramdecl
                        ) % eol
                    > "}";

        gr_instruction_names.add("Mov", unused);
        gr_instruction_names.add("Push", unused);
        gr_instruction_names.add("Exit", unused);

        gr_instruction = lexeme [ gr_instruction_names >> !(alnum|"_") ] > gr_operands;
        gr_operands = -(gr_operand % ',');

        gr_identifier = lexeme [ alpha >> *(alnum | '_') ];
        gr_operand    = gr_identifier | gr_string;
        gr_string     = lexeme [ '"' >> *("\"\"" | ~char_("\"")) >> '"' ];

        BOOST_SPIRIT_DEBUG_NODES((start)(function)(gr_instruction)(gr_operands)(gr_identifier)(gr_operand)(gr_string));
    }

  private:
    qi::symbols<char, qi::unused_type> gr_instruction_names;
    qi::rule<It, Skipper> start, function, gr_instruction, gr_operands, gr_identifier, gr_operand, gr_string;
};

int main()
{
    typedef boost::spirit::istream_iterator It;
    std::cin.unsetf(std::ios::skipws);
    It f(std::cin), l;

    parser<It, qi::blank_type> p;

    try
    {
        bool ok = qi::phrase_parse(f,l,p,qi::blank);
        if (ok)   std::cout << "parse success\n";
        else      std::cerr << "parse failed: '" << std::string(f,l) << "'\n";

        if (f!=l) std::cerr << "trailing unparsed: '" << std::string(f,l) << "'\n";
        return ok;
    } catch(const qi::expectation_failure<It>& e)
    {
        std::string frag(e.first, e.last);
        std::cerr << e.what() << "'" << frag << "'\n";
    }

    return false;
}

【讨论】：

感谢您的回答。我已经用 gr_instruction 所依赖的所有内容更新了原始问题。我已经指定了可能是操作数的内容。我也在换行。不过目前，我的船长吞下了换行符（我会在完成本期后查看）。
关于换行处理，你不需要改变它，除非你预料到gr_operands可能包含换行。我只是更喜欢保持语法尽可能严格。在这种情况下，除非您能够检测到 gr_instruction 尚未结束（由于缺少换行符），否则您将无法获得更好的诊断结果。因为，如果换行符是可跳过的，“hello”可能是下一条指令的开始，解析器应该将其标记为失败。
@namezero 好的。清除。让我解释一下我的最后一条评论：解析器将无法标记丢失的“，”，除非它可以检测到语句的结束/开始。如果缺少“，”，它将（正确地）假设下一个语句开始。这就是将被标记的内容。
@namezero 是的。完全禁用跳过（通过在规则声明中使用 no skipper），或使用 skip(s)[] 或 no_skip[] 指令。有关背景，请参阅 this general answer
@namezero 我通过将“中间”规则作为开始规则来解决这种“问题”。或者，您知道，只需更改相关规则/语法上的船长即可。