ANTLR4 - 在我的语言中可选白色 space
ANTLR4 - Optional white space in my language
我正在为 ANTLR4 中的编程语言编写解析器。大多数情况下,我想忽略空格,但在某些情况下,使用它来表示标记之间的边界至关重要。
例如,在解析运营商应用程序时 myvar = this + that
我当前的解析器会将 this+that
作为一个长标识符。这将导致解析器失败,因为名称中不允许使用符号。我目前正在跳过所有空格,这导致了这个问题,但我找不到允许我将空格设为可选但也可以使用它来指定这些边界的解决方案。
下面是我的解析器以及我要解析的测试代码。
解析器:
grammar archie;
// Parser Rules
program: line* EOF;
line: (element | COMMENT) (';' | '\n' | ';\n')+;
//assignment: identifier EQ element;
element:
//Function Call
element elementList |
//Function Literal
nameList FARROW element |
//Identifier
identifier |
//CombinedID
element (DOT name)+ |
//assignment
identifier EQ element |
O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK |
element name element
;
elementList: O_R_BRACK element? (COMMA element )* C_R_BRACK;
identifier: (name (DOT name)*);
nameList: O_R_BRACK name? (COMMA name)* C_R_BRACK;
name: (ALPHABET | SYMBOL+) (ALPHABET | NUMERIC)*;
NUMERIC: [0-9];
ALPHABET: [a-zA-Z];
SYMBOL : [~!$^*&+#<>?|];
FARROW: '=>';
WS: [ \t]+ -> skip;
SKP: [\r]+ -> skip;
COMMENT: '//' (ALPHABET | SYMBOL | NUMERIC | WS)*;
DOT: '.';
COMMA: ',';
EQ: '=';
O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';
测试代码:
this.that = that.this;
this.this = that.other;
that = this;
that = () => that;
a();
this + that;
问题是,你的术语解析没有明确定义。
myvar = this + that
被解析为
element -> identifier EQ element <- identifier = myvar,
element = "this + that"
this + that -> element name element
这是模棱两可的:
element
可以简化为标识符,其最小长度为 (1):
element(t) name(his) element(+that)
element
可以尽可能解析所有字符:
element(this) name(+that) element() <- error
element(this) name(+tha) element(t)
我认为问题在于,您允许名称将运算符作为其字母表的一部分。
据我所知,你的主要问题是你的语法试图单独对每个字符进行词法分析,然后对其进行解析。那是行不通的,词法分析器应该 lex 语言的个别 "words",这就是让你的语法如此奇怪的原因。
你的另一个问题是 "test+test" 被解析为 "test" "+test"。相反,我建议使用以下语法,它允许使用符号名称,但它们不能与字母数字名称混合。
grammar archie;
// Parser Rules
programme: line* EOF;
line
: element (';' | '\n')+
| COMMENT
;
//assignment: identifier EQ element;
element
: element elementList //Function Call
| nameList FARROW element //Function Literal
| identifier //Identifier
| element (DOT NAME)+ //CombinedID
| identifier EQ element //assignment
| O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK
| element NAME element
;
elementList: O_R_BRACK element? (COMMA element)* C_R_BRACK;
identifier: NAME (DOT NAME)*;
nameList: O_R_BRACK (NAME COMMA)* (NAME COMMA?)? C_R_BRACK;
NAME
: [A-Za-z_][A-Za-z0-9_]*
| [~!$^*&+#<>?|]+
;
FARROW: '=>';
WS: [ \t]+ -> skip;
SKP: [\r]+ -> skip;
COMMENT: '//' ~[\n]* '\n'+;
DOT: '.';
COMMA: ',';
EQ: '=';
O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';
这确实改变了允许的标识符,但实现了您的总体目标。
之前:
this + that // (element (element (name this)) (name +) (element (name that)))
++that // (element (name ++that))
this+that // (element (element (name this)) (name +that) (element) and ERROR ERROR
之后:
this + that // (element (element this) + (element that))
++that // ERROR ERROR
that+that // (element (element this) + (element that))
抱歉,我知道 @thst 先回答了,但我正在研究语法解决方案,当我去测试它时,我的 antlr4 设置坏了,我正在修复它
我正在为 ANTLR4 中的编程语言编写解析器。大多数情况下,我想忽略空格,但在某些情况下,使用它来表示标记之间的边界至关重要。
例如,在解析运营商应用程序时 myvar = this + that
我当前的解析器会将 this+that
作为一个长标识符。这将导致解析器失败,因为名称中不允许使用符号。我目前正在跳过所有空格,这导致了这个问题,但我找不到允许我将空格设为可选但也可以使用它来指定这些边界的解决方案。
下面是我的解析器以及我要解析的测试代码。
解析器:
grammar archie;
// Parser Rules
program: line* EOF;
line: (element | COMMENT) (';' | '\n' | ';\n')+;
//assignment: identifier EQ element;
element:
//Function Call
element elementList |
//Function Literal
nameList FARROW element |
//Identifier
identifier |
//CombinedID
element (DOT name)+ |
//assignment
identifier EQ element |
O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK |
element name element
;
elementList: O_R_BRACK element? (COMMA element )* C_R_BRACK;
identifier: (name (DOT name)*);
nameList: O_R_BRACK name? (COMMA name)* C_R_BRACK;
name: (ALPHABET | SYMBOL+) (ALPHABET | NUMERIC)*;
NUMERIC: [0-9];
ALPHABET: [a-zA-Z];
SYMBOL : [~!$^*&+#<>?|];
FARROW: '=>';
WS: [ \t]+ -> skip;
SKP: [\r]+ -> skip;
COMMENT: '//' (ALPHABET | SYMBOL | NUMERIC | WS)*;
DOT: '.';
COMMA: ',';
EQ: '=';
O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';
测试代码:
this.that = that.this;
this.this = that.other;
that = this;
that = () => that;
a();
this + that;
问题是,你的术语解析没有明确定义。
myvar = this + that
被解析为
element -> identifier EQ element <- identifier = myvar,
element = "this + that"
this + that -> element name element
这是模棱两可的:
element
可以简化为标识符,其最小长度为 (1):
element(t) name(his) element(+that)
element
可以尽可能解析所有字符:
element(this) name(+that) element() <- error
element(this) name(+tha) element(t)
我认为问题在于,您允许名称将运算符作为其字母表的一部分。
据我所知,你的主要问题是你的语法试图单独对每个字符进行词法分析,然后对其进行解析。那是行不通的,词法分析器应该 lex 语言的个别 "words",这就是让你的语法如此奇怪的原因。
你的另一个问题是 "test+test" 被解析为 "test" "+test"。相反,我建议使用以下语法,它允许使用符号名称,但它们不能与字母数字名称混合。
grammar archie;
// Parser Rules
programme: line* EOF;
line
: element (';' | '\n')+
| COMMENT
;
//assignment: identifier EQ element;
element
: element elementList //Function Call
| nameList FARROW element //Function Literal
| identifier //Identifier
| element (DOT NAME)+ //CombinedID
| identifier EQ element //assignment
| O_C_BRACK (element (';' | '\n' | ';\n'))* C_C_BRACK
| element NAME element
;
elementList: O_R_BRACK element? (COMMA element)* C_R_BRACK;
identifier: NAME (DOT NAME)*;
nameList: O_R_BRACK (NAME COMMA)* (NAME COMMA?)? C_R_BRACK;
NAME
: [A-Za-z_][A-Za-z0-9_]*
| [~!$^*&+#<>?|]+
;
FARROW: '=>';
WS: [ \t]+ -> skip;
SKP: [\r]+ -> skip;
COMMENT: '//' ~[\n]* '\n'+;
DOT: '.';
COMMA: ',';
EQ: '=';
O_R_BRACK: '(';
C_R_BRACK: ')';
O_C_BRACK: '{';
C_C_BRACK: '}';
这确实改变了允许的标识符,但实现了您的总体目标。
之前:
this + that // (element (element (name this)) (name +) (element (name that)))
++that // (element (name ++that))
this+that // (element (element (name this)) (name +that) (element) and ERROR ERROR
之后:
this + that // (element (element this) + (element that))
++that // ERROR ERROR
that+that // (element (element this) + (element that))
抱歉,我知道 @thst 先回答了,但我正在研究语法解决方案,当我去测试它时,我的 antlr4 设置坏了,我正在修复它