如何使用 ANTLR4 突出显示 QScintilla？答案

【问题标题】：How to highlight QScintilla using ANTLR4?如何使用 ANTLR4 突出显示 QScintilla？
【发布时间】：2019-10-23 04:36:06
【问题描述】：

我正在努力学习 ANTLR4，但我的第一次实验已经遇到了一些问题。

这里的目标是学习如何使用 ANTLR 语法高亮 QScintilla 组件。为了稍微练习一下，我决定学习如何正确突出显示 *.ini 文件。

首先，为了运行你需要的 mcve：

下载 antlr4 并确保它工作正常，阅读主站点上的说明
安装python antlr运行时，只需：pip install antlr4-python3-runtime

生成ini.g4的词法分析器/解析器：

grammar ini;

start : section (option)*;
section : '[' STRING ']';
option : STRING '=' STRING;

COMMENT : ';'  ~[\r\n]*;
STRING  : [a-zA-Z0-9]+;
WS      : [ \t\n\r]+;

通过运行antlr ini.g4 -Dlanguage=Python3 -o ini

最后，保存main.py：

import textwrap

from PyQt5.Qt import *
from PyQt5.Qsci import QsciScintilla, QsciLexerCustom

from antlr4 import *
from ini.iniLexer import iniLexer
from ini.iniParser import iniParser


class QsciIniLexer(QsciLexerCustom):

    def __init__(self, parent=None):
        super().__init__(parent=parent)

        lst = [
            {'bold': False, 'foreground': '#f92472', 'italic': False},  # 0 - deeppink
            {'bold': False, 'foreground': '#e7db74', 'italic': False},  # 1 - khaki (yellowish)
            {'bold': False, 'foreground': '#74705d', 'italic': False},  # 2 - dimgray
            {'bold': False, 'foreground': '#f8f8f2', 'italic': False},  # 3 - whitesmoke
        ]
        style = {
            "T__0": lst[3],
            "T__1": lst[3],
            "T__2": lst[3],
            "COMMENT": lst[2],
            "STRING": lst[0],
            "WS": lst[3],
        }

        for token in iniLexer.ruleNames:
            token_style = style[token]

            foreground = token_style.get("foreground", None)
            background = token_style.get("background", None)
            bold = token_style.get("bold", None)
            italic = token_style.get("italic", None)
            underline = token_style.get("underline", None)
            index = getattr(iniLexer, token)

            if foreground:
                self.setColor(QColor(foreground), index)
            if background:
                self.setPaper(QColor(background), index)

    def defaultPaper(self, style):
        return QColor("#272822")

    def language(self):
        return self.lexer.grammarFileName

    def styleText(self, start, end):
        view = self.editor()
        code = view.text()
        lexer = iniLexer(InputStream(code))
        stream = CommonTokenStream(lexer)
        parser = iniParser(stream)

        tree = parser.start()
        print('parsing'.center(80, '-'))
        print(tree.toStringTree(recog=parser))

        lexer.reset()
        self.startStyling(0)
        print('lexing'.center(80, '-'))
        while True:
            t = lexer.nextToken()
            print(lexer.ruleNames[t.type-1], repr(t.text))
            if t.type != -1:
                len_value = len(t.text)
                self.setStyling(len_value, t.type)
            else:
                break

    def description(self, style_nr):
        return str(style_nr)


if __name__ == '__main__':
    app = QApplication([])
    v = QsciScintilla()
    lexer = QsciIniLexer(v)
    v.setLexer(lexer)
    v.setText(textwrap.dedent("""\
        ; Comment outside

        [section s1]
        ; Comment inside
        a = 1
        b = 2

        [section s2]
        c = 3 ; Comment right side
        d = e
    """))
    v.show()
    app.exec_()

并运行它，如果一切顺利，你应该得到这个结果：

这是我的问题：

如您所见，演示的结果远非可用，您绝对不希望这样，这真的很令人不安。相反，您希望获得与所有 IDE 类似的行为。不幸的是，我不知道如何实现这一点，您将如何修改提供这种行为的 sn-p？
现在我正在尝试模仿与以下快照类似的突出显示：

您可以在该屏幕截图中看到变量赋值（variable=deeppink 和 values=yellowish）的突出显示不同，但我不知道如何实现，我尝试使用这种稍微修改的语法：

grammar ini;

start : section (option)*;
section : '[' STRING ']';
option : VARIABLE '=' VALUE;

COMMENT : ';'  ~[\r\n]*;
VARIABLE  : [a-zA-Z0-9]+;
VALUE  : [a-zA-Z0-9]+;
WS      : [ \t\n\r]+;

然后将样式更改为：

style = {
    "T__0": lst[3],
    "T__1": lst[3],
    "T__2": lst[3],
    "COMMENT": lst[2],
    "VARIABLE": lst[0],
    "VALUE": lst[1],
    "WS": lst[3],
}

但是如果您查看词法分析输出，您会发现 VARIABLE 和 VALUES 之间没有区别，因为 ANTLR 语法中的顺序优先。所以我的问题是，你将如何修改语法/sn-p 以实现这样的视觉外观？

【问题讨论】：

标签： parsing antlr syntax-highlighting antlr4 qscintilla

【解决方案1】：

问题在于词法分析器需要对上下文敏感：= 左侧的所有内容都需要是一个变量，而在它的右侧是一个值。您可以通过使用 ANTLR 的 lexical modes 来做到这一点。您首先将连续的非空格分类为变量，当遇到= 时，您将进入您的值模式。在 value-mode 中，只要遇到换行符，就会退出此模式。

请注意，词法模式仅适用于词法分析器语法，而不适用于您现在拥有的组合语法。此外，对于语法高亮，您可能只需要词法分析器。

这是一个如何工作的快速演示（将其粘贴在一个名为 IniLexer.g4 的文件中）：

lexer grammar IniLexer;

SECTION
 : '[' ~[\]]+ ']'
 ;

COMMENT
 : ';' ~[\r\n]*
 ;

ASSIGN
 : '=' -> pushMode(VALUE_MODE)
 ;

KEY
 : ~[ \t\r\n]+
 ;

SPACES
 : [ \t\r\n]+ -> skip
 ;

UNRECOGNIZED
 : .
 ;

mode VALUE_MODE;

  VALUE_MODE_SPACES
   : [ \t]+ -> skip
   ;

  VALUE
   : ~[ \t\r\n]+
   ;

  VALUE_MODE_COMMENT
   : ';' ~[\r\n]* -> type(COMMENT)
   ;

  VALUE_MODE_NL
   : [\r\n]+ -> skip, popMode
   ;

如果您现在运行以下脚本：

source = """
; Comment outside

[section s1]
; Comment inside
a = 1
b = 2

[section s2]
c = 3 ; Comment right side
d = e
"""

lexer = IniLexer(InputStream(source))
stream = CommonTokenStream(lexer)
stream.fill()

for token in stream.tokens[:-1]:
    print("{0:<25} '{1}'".format(IniLexer.symbolicNames[token.type], token.text))

您将看到以下输出：

COMMENT                   '; Comment outside'
SECTION                   '[section s1]'
COMMENT                   '; Comment inside'
KEY                       'a'
ASSIGN                    '='
VALUE                     '1'
KEY                       'b'
ASSIGN                    '='
VALUE                     '2'
SECTION                   '[section s2]'
KEY                       'c'
ASSIGN                    '='
VALUE                     '3'
COMMENT                   '; Comment right side'
KEY                       'd'
ASSIGN                    '='
VALUE                     'e'

附带的解析器语法可能如下所示：

parser grammar IniParser;

options {
  tokenVocab=IniLexer;
}

sections
 : section* EOF
 ;

section
 : COMMENT
 | SECTION section_atom*
 ;

section_atom
 : COMMENT
 | KEY ASSIGN VALUE
 ;

它将在以下解析树中解析您的示例输入：

【讨论】：

对我不知道的新主题的非常酷的回答，谢谢，我会测试一下。顺便说一句，您建议使用词法分析器而不是解析器，但最终我想实现this 之类的东西，在我的真实案例（这是一个 GLSL IDE）中检查从 6:20 到 12:30。无论如何，我的问题的另一部分呢？您如何处理错误以使突出显示不会搞砸？同时+1
“但最终我想实现 [...]”，好的，那么仅仅一个词法分析器就不会削减它，是的，你确实需要一个解析器。关于您问题的第二部分，我无法给出有意义的答案：我从未以这种方式使用过 ANTLR（IDE 插件/工具的增量解析）
有趣的谈话，顺便说一句。
确实，讲得真好！我必须说，在 antlr4 或 tree-sitter tbh 之间我真的很难接受，这两个工具都非常棒。无论如何，我认为您的回答非常满足我当前的问题，我已经检查过了，它工作正常。现在是时候调整我琐碎的 hello world sn-p 以使用解析器而不是词法分析器，在尝试使用更复杂的语法（如 GLSL）之前，我会这样做。另外...不确定将这些词法模式应用于 GLSL 等复杂语法有多困难，检查时间；）

【解决方案2】：

我已经在 C++ 中实现了类似的东西。

https://github.com/tora-tool/tora/blob/master/src/editor/tosqltext.cpp

子类 QScintilla 类并基于 ANTLR 生成的源实现自定义 Lexer。

您甚至可以使用 ANTLR 解析器（我没有使用它），QScitilla 允许您拥有多个分析器（具有不同的权重），因此您可以定期对文本执行一些语义检查。在 QScintilla 中不能轻易做到的是将令牌与一些附加数据相关联。

【讨论】：

哇，所以你也有这个想法，太棒了，我来看看...关于使用 ANTLR 解析器，不确定 c++ antlr 运行时，可能比蟒蛇之一。问题是，昨天我尝试使用 glsl antlr 解析器解析 28kb 的注释 glsl 代码，结果花了我 1.9 秒！这太疯狂了，绝对不能实时使用它（每次击键解析）......解析时间应该是~50-100ms
我使用 ANTLR3 的 c++ 运行时，解析在后台线程中运行，Qscintilla 通常只发送一行要解析的文本。所以我不得不为多行 cmets 实现一些 hack。

【解决方案3】：

Sctintilla 中的语法高亮是由专门的高亮类（即词法分析器）完成的。解析器不太适合这种工作，因为语法高亮功能必须工作，即使输入包含错误。解析器是一种验证输入正确性的工具 - 2 个完全不同的任务。

因此，我建议您停止考虑为此使用 ANTLR4，而只需采用现有 Lex 类之一，并为您要突出显示的语言创建一个新类。

【讨论】：

我已经使用了 2 天的 ANTLR4，我认为它是适合这里工作的工具......我在使用 QScintilla 和 {builtin Scintilla lexers, pygments, syntect, pyparsing，云雀}。所以这并不是我突然选择 ANTLR4 ......实际上我正在考虑 ANTLR4 或 tree-sitter 但我选择前者主要是因为大量现有的可用语法。你说“为了语言”你想突出显示......好吧，在实际情况下，我正在编写几个 IDE，其中一个是 GLSL IDE，另一个是多语言文本编辑器，所以......跨度>
另外，我可以在另一个question 中看到您还建议使用词法分析器而不是解析器，而那个人决定使用解析器。好吧，对我来说最重要的是性能，所以首先我需要检查解析 ~30kb 的 GLSL 文件需要多长时间......可能我的决定将基于这些测量值，因为解析/击键不应该更大大于~100ms