如何使用 gocc 在 Golang 中实现不区分大小写的词法解析器?
How to implement case insensitive lexical parser in Golang using gocc?
我需要使用 Gocc 构建一个词法分析器,但是文档中没有提到忽略大小写的选项,我也找不到任何相关内容。任何人都知道如何完成或我应该使用其他工具吗?
/* Lexical part */
_digit : '0'-'9' ;
int64 : '1'-'9' {_digit} ;
switch: 's''w''i''t''c''h';
while: 'w''h''i''l''e';
!whitespace : ' ' | '\t' | '\n' | '\r' ;
/* Syntax part */
<<
import(
"github.com/goccmack/gocc/example/calc/token"
"github.com/goccmack/gocc/example/calc/util"
)
>>
Calc : Expr;
Expr :
Expr "+" Term << [=10=].(int64) + .(int64), nil >>
| Term
;
Term :
Term "*" Factor << [=10=].(int64) * .(int64), nil >>
| Factor
;
Factor :
"(" Expr ")" << , nil >>
| int64 << util.IntValue([=10=].(*token.Token).Lit) >>
;
比如“switch”,不管是大写还是小写,我都想识别,而不用输入所有的组合。在 Bison 中有选项 % option caseless,在 Gocc 中有吗?
查看该产品的文档,我没有看到任何制作字符文字的选项 case-insensitive,也没有看到任何编写字符 class 的方法每个正则表达式引擎和扫描仪生成器。但除了乏味、可读性和风格之外,没有什么能阻止你写作
switch: ('s'|'S')('w'|'W')('i'|'I')('t'|'T')('c'|'C')('h'|'H');
while: ('w'|'W')('h'|'H')('i'|'I')('l'|'L')('e'|'E');
(这源于在没有 case-insensitivity 的 lex 中执行此操作的旧方法,它使用字符 classes 使其更具可读性:
[sS][wW][iI][tT][cC][hH] return T_SWITCH;
[wW][hH][iI][lL][eE] return T_WHILE;
你可以通过定义26种模式更接近前者:
_a: 'a'|'A';
_b: 'b'|'B';
_c: 'c'|'C';
_d: 'd'|'D';
_e: 'e'|'E';
_f: 'f'|'F';
_g: 'g'|'G';
_h: 'h'|'H';
_i: 'i'|'I';
_j: 'j'|'J';
_k: 'k'|'K';
_l: 'l'|'L';
_m: 'm'|'M';
_n: 'n'|'N';
_o: 'o'|'O';
_p: 'p'|'P';
_q: 'q'|'Q';
_r: 'r'|'R';
_s: 's'|'S';
_t: 't'|'T';
_u: 'u'|'U';
_v: 'v'|'V';
_w: 'w'|'W';
_x: 'x'|'X';
_y: 'y'|'Y';
_z: 'z'|'Z';
然后展开字符串文字:
switch: _s _w _i _t _c _h;
while: _w _h _i _l _e;
我需要使用 Gocc 构建一个词法分析器,但是文档中没有提到忽略大小写的选项,我也找不到任何相关内容。任何人都知道如何完成或我应该使用其他工具吗?
/* Lexical part */
_digit : '0'-'9' ;
int64 : '1'-'9' {_digit} ;
switch: 's''w''i''t''c''h';
while: 'w''h''i''l''e';
!whitespace : ' ' | '\t' | '\n' | '\r' ;
/* Syntax part */
<<
import(
"github.com/goccmack/gocc/example/calc/token"
"github.com/goccmack/gocc/example/calc/util"
)
>>
Calc : Expr;
Expr :
Expr "+" Term << [=10=].(int64) + .(int64), nil >>
| Term
;
Term :
Term "*" Factor << [=10=].(int64) * .(int64), nil >>
| Factor
;
Factor :
"(" Expr ")" << , nil >>
| int64 << util.IntValue([=10=].(*token.Token).Lit) >>
;
比如“switch”,不管是大写还是小写,我都想识别,而不用输入所有的组合。在 Bison 中有选项 % option caseless,在 Gocc 中有吗?
查看该产品的文档,我没有看到任何制作字符文字的选项 case-insensitive,也没有看到任何编写字符 class 的方法每个正则表达式引擎和扫描仪生成器。但除了乏味、可读性和风格之外,没有什么能阻止你写作
switch: ('s'|'S')('w'|'W')('i'|'I')('t'|'T')('c'|'C')('h'|'H');
while: ('w'|'W')('h'|'H')('i'|'I')('l'|'L')('e'|'E');
(这源于在没有 case-insensitivity 的 lex 中执行此操作的旧方法,它使用字符 classes 使其更具可读性:
[sS][wW][iI][tT][cC][hH] return T_SWITCH;
[wW][hH][iI][lL][eE] return T_WHILE;
你可以通过定义26种模式更接近前者:
_a: 'a'|'A';
_b: 'b'|'B';
_c: 'c'|'C';
_d: 'd'|'D';
_e: 'e'|'E';
_f: 'f'|'F';
_g: 'g'|'G';
_h: 'h'|'H';
_i: 'i'|'I';
_j: 'j'|'J';
_k: 'k'|'K';
_l: 'l'|'L';
_m: 'm'|'M';
_n: 'n'|'N';
_o: 'o'|'O';
_p: 'p'|'P';
_q: 'q'|'Q';
_r: 'r'|'R';
_s: 's'|'S';
_t: 't'|'T';
_u: 'u'|'U';
_v: 'v'|'V';
_w: 'w'|'W';
_x: 'x'|'X';
_y: 'y'|'Y';
_z: 'z'|'Z';
然后展开字符串文字:
switch: _s _w _i _t _c _h;
while: _w _h _i _l _e;