解析字符串antlr

Parse string antlr

我将字符串作为解析器规则而不是词法分析器,因为字符串可能包含带有表达式的转义符,例如 "The variable is \(variable)".

string
 : '"' character* '"'
 ;

character
 : escapeSequence
 | .
 ;

escapeSequence
 : '\(' expression ')'
 ;

IDENTIFIER
 : [a-zA-Z][a-zA-Z0-9]*
 ;

WHITESPACE
 : [ \r\t,] -> skip
 ;

这不起作用,因为 . 匹配任何标记而不是任何字符,因此将匹配许多标识符,并且将完全忽略空格。

如何解析其中可以包含表达式的字符串?

查看 Swift 和 Javascript 的解析器,这两种语言都支持这样的事情,我无法弄清楚它们是如何工作的。据我所知,他们只是输出一个字符串,例如 "my string with (variables) in it" 而实际上无法将变量解析为它自己的东西。

可以使用词法模式来解决这个问题,方法是为字符串内部设置一种模式,为外部设置一个(或多个)模式。在外面看到 " 会切换到内部模式,在外面看到 \(" 会切换回内部模式。唯一复杂的部分是在外面看到 ):有时它应该切换回内部(因为它对应于 \(),有时它不应该(当它对应于普通 ().

最基本的实现方式如下:

词法分析器:

lexer grammar StringLexer;

IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* ;
DQUOTE: '"' -> pushMode(IN_STRING);
LPAR: '(' -> pushMode(DEFAULT_MODE);
RPAR: ')' -> popMode;

mode IN_STRING;

TEXT: ~[\"]+ ;

BACKSLASH_PAREN: '\(' -> pushMode(DEFAULT_MODE);

ESCAPE_SEQUENCE: '\' . ;

DQUOTE_IN_STRING: '"' -> type(DQUOTE), popMode;

解析器:

parser grammar StringParser;

options {
    tokenVocab = 'StringLexer';
}

start: exp EOF ;

exp : '(' exp ')'
    | IDENTIFIER
    | DQUOTE stringContents* DQUOTE
    ;

stringContents : TEXT
               | ESCAPE_SEQUENCE
               | '\(' exp ')'
               ;

在这里,我们每次看到 (\( 时都会推送默认模式,每次看到 ) 时都会弹出模式。这样,只有当堆栈顶部的模式是字符串模式时,它才会返回到字符串中,只有在自上次 \( 之后没有任何未关闭的 ( 时才会出现这种情况.

这种方法可行,但缺点是不匹配的 ) 会导致空堆栈异常而不是正常的语法错误,因为我们在空堆栈上调用 popMode


为了避免这种情况,我们可以添加一个成员来跟踪我们在括号内的嵌套深度,并且在嵌套级别为 0 时(即如果堆栈为空)不弹出堆栈:

@members {
    int nesting = 0;
}

LPAR: '(' {
    nesting++;
    pushMode(DEFAULT_MODE);
};
RPAR: ')' {
    if (nesting > 0) {
        nesting--;
        popMode();
    }
};

mode IN_STRING;

BACKSLASH_PAREN: '\(' {
    nesting++;
    pushMode(DEFAULT_MODE);
};

(我省略的部分和之前的版本是一样的)

这有效并为不匹配的 ) 产生正常的语法错误。但是,它包含动作,因此不再与语言无关,如果您计划使用多种语言的语法,这只是一个问题(并且根据语言,您甚至可能很幸运,代码可能在所有语言中都有效)您的目标语言)。


如果您想避免操作,最后一种选择是采用三种模式:一种用于任何字符串外部的代码,一种用于字符串内部,一种用于 \() 内部。第三个几乎与外面的相同,除了它会在看到括号时压入和弹出模式,而外面的不会。为了使两种模式产生相同类型的令牌,第三种模式中的规则将全部调用type()。这看起来像这样:

lexer grammar StringLexer;

IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* ;
DQUOTE: '"' -> pushMode(IN_STRING);
LPAR: '(';
RPAR: ')';

mode IN_STRING;

TEXT: ~[\"]+ ;

BACKSLASH_PAREN: '\(' -> pushMode(EMBEDDED);

ESCAPE_SEQUENCE: '\' . ;

DQUOTE_IN_STRING: '"' -> type(DQUOTE), popMode;

mode EMBEDDED;

E_IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* -> type(IDENTIFIER);
E_DQUOTE: '"' -> pushMode(IN_STRING), type(DQUOTE);
E_LPAR: '(' -> type(LPAR), pushMode(EMBEDDED);
E_RPAR: ')' -> type(RPAR), popMode;

请注意,我们现在不能再在解析器语法中使用字符串文字,因为当使用相同的字符串文字定义多个词法分析器规则时不能使用字符串文字。所以现在我们必须在解析器中使用 LPAR 而不是 '(' 等等(出于同样的原因,我们已经为 DQUOTE 这样做了)。

由于此版本涉及大量重复(尤其是随着标记数量的增加)并且阻止在解析器语法中使用字符串文字,所以我通常更喜欢带有操作的版本。


还可以找到所有三个备选方案的完整代码 on GitHub