ANTLR4 解析正则表达式

Question

我正在尝试解析 RegEx，特别是以下内容：

[A-Z0-9]{1,20}

问题是，我不知道如何使以下语法起作用，因为 Char 和 Int 标记都可以识别数字。

grammar RegEx;            

regEx : (character count? )+ ;

character : Char 
          | range ;

range  : '[' (rangeChar|rangeX)+ ']' ;
rangeX : rangeStart '-' rangeEnd ;
rangeChar : Char ;
rangeStart : Char ;
rangeEnd : Char ;

count : '{' (countExact | (countMin ',' countMax) ) '}' ;
countMin : D+ ;
countMax : Int ;
countExact : Int ;

channels {
  COUNT_CHANNEL,
  RANGE_CHANNEL
}

Char : D | C ; 
Int : D+ -> channel(COUNT_CHANNEL) ;

Semicolon : ';' ;
Comma : ',' ;
Asterisk : '*' ;
Plus : '+' ; 
Dot : '.' ;  
Dash : '-' ;
//CourlyBracketL : '{' ;
//CourlyBracketR : '}' ;

WS : [ \t\r\n]+ -> skip ; // skip spaces, tabs, newlines, \r (Windows)

fragment D : [0-9] ;
fragment C : [a-zA-Z] ;

现在，我是一个菜鸟，我不知道我是否应该尝试词法分析器模式、引导一些 ifs 或者这里的 "normal" 方法是什么。谢谢！

Answer 1

将标记放在默认通道以外的任何通道上会使它们在解析器的正常操作中隐藏。

尽量不要在词法分析器中组合标记——最终会丢失对解析器有用的信息。

试试这个：

grammar RegEx;

regEx   : ( value count? )+ ;

value   : alphNum | range ;
range   : LBrack set+ RBrack ;
set     : b=alphNum ( Dash e=alphNum)? ;

count   : LBrace min=num ( Comma max=num )? RBrace ;

alphNum : Char | Int ;
num     : Int+   ;

Char    : ALPHA  ;
Int     : DIGIT  ;

Semi    : ';' ;
Comma   : ',' ;
Star    : '*' ;
Plus    : '+' ;
Dot     : '.' ;
Dash    : '-' ;
LBrace  : '{' ;
RBrace  : '}' ;
LBrack  : '[' ;
RBrack  : ']' ;

WS : [ \t\r\n]+ -> skip ;

fragment DIGIT : [0-9] ;
fragment ALPHA : [a-zA-Z] ;

ANTLR4 解析正则表达式

ANTLR4 parsing RegEx

regex

parsing

antlr4