从 Jison 内部改变词汇状态

Change lexical state from within Jison

是否可以从 Jison 的语法规则中更改词法状态(又名 "start condition")?

我正在解析一种计算机语言,当某些语法规则得到满足时,词汇状态会明显改变(至少对我的人类思维方式而言),即使在词法分析器中没有我可以准确指向的标记。

(我认为这是因为某些关键字在一种状态下 reserved/reservable 而在另一种状态下则不然。)

绝对可以从词法分析器中改变词法状态,例如:

%lex
%x expression

%% 
{id}               {  return 'ID';
"="                { this.begin('expression'); return '='; }
<expression>";"    { this.popState(); return ';'; }

但是有没有办法在某些语法规则匹配时改变词汇状态?

%% /* language grammar */

something :  pattern1 pattern2 { this.beginState('expression'); $$ = [,]; };
pattern1 : some stuff { $$ = [, ]; }
pattern2 : other stuff { $$ = [, ]; }

如果我尝试这个,我会得到

TypeError: this.popState is not a function
      at Object.anonymous (eval at createParser (/Users/me/Exp/stats/node_modules/jison/lib/jison.js:1327:23), <anonymous>:47:67)
      at Object.parse (eval at createParser (/Users/me/Exp/stats/node_modules/jison/lib/jison.js:1327:23), <anonymous>:329:36)

我不确定我要问的是理论上不可能还是概念上天真(例如,这是 context free grammar 的真正含义吗?),或者它就在那里,我只是没有阅读文档正确。

词法分析器对象在解析器操作中可用 yy.lexer,因此您可以使用 yy.lexer.begin('expression'); 更改开始条件并使用 yy.lexer.popState() 返回到旧条件。那部分没有问题。

但是,您需要考虑何时新的开始条件生效。 LALR(1) 解析器,例如由 jison(或 bison)实现的解析器,使用单个先行标记来决定采取什么操作。 (LALR(1) 中的“1”是可能的前瞻长度。)这意味着当解析器操作被执行时——当它附加到的规则被减少时——下一个标记可能已经被读取。

情况并非总是如此; jison 和 bison 有时都可以在不使用先行标记的情况下进行归约,在这种情况下,它们还没有读取它。

简而言之,一个动作 中词法分析器状态的改变可能 在读取下一个标记之前生效,但大多数情况下它会在读取下一个标记时生效令牌被读取。由于这种歧义,通常最好在不受词法分析器状态变化影响的标记之前进行词法分析器状态变化。

例如,考虑标准计算器。以下例子改编自jison手册:

%lex
%%

\s+                   /* skip whitespace */
[0-9]+\b              yytext=parseInt(yytext); return 'NUMBER'
[*/+%()-]             return yytext[0]
<<EOF>>               return 'EOF'
.                     return 'INVALID'

/lex

%left '+' '-'
%left '*' '/' '%'
%left UMINUS

%start expressions

%% /* language grammar */

expressions: e EOF              {return ;};

e   : e '+' e                   {$$ = +;}
    | e '-' e                   {$$ = -;}
    | e '*' e                   {$$ = *;}
    | e '/' e                   {$$ = /;}
    | e '%' e                   {$$ = %;}
    | '-' e %prec UMINUS        {$$ = -;}
    | '(' e ')'                 {$$ = ;}
    | NUMBER                    {$$ = ;}
    ;

现在,让我们修改它,使 [] 之间的所有数字都被解释为十六进制。我们使用一个非排他性的开始条件,称为 HEX;启用后,十六进制数将被识别并进行相应转换。

%lex
%s HEX
%%

\s+                   /* skip whitespace */
<INITIAL>[0-9]+("."[0-9]+)?\b  yytext=parseInt(yytext); return 'NUMBER'
<HEX>[0-9a-fA-F]+\b            yytext=parseInt(yytext, 16); return 'NUMBER'
[*/+%()[\]-]          return yytext[0]
<<EOF>>               return 'EOF'
.                     return 'INVALID'

/lex

%left '+' '-'
%left '*' '/' '%'
%left UMINUS

%start expressions

%% /* language grammar */

expressions: e EOF              {return ;};

e   : e '+' e                   {$$ = +;}
    | e '-' e                   {$$ = -;}
    | e '*' e                   {$$ = *;}
    | e '/' e                   {$$ = /;}
    | e '%' e                   {$$ = %;}
    | '-' e %prec UMINUS        {$$ = -;}
    | '(' e ')'                 {$$ = ;}
    | hex '[' e unhex ']'       {$$ = ;}
    | NUMBER                    {$$ = ;}
    ;
hex :                           { yy.lexer.begin('HEX'); } ;
unhex:                          { yy.lexer.popState(); } ;

在这里,我们使用空的非终结符 hexunhex 来改变词法分析器状态。 (在 bison 中,我会使用一个 mid-rule 动作,这非常相似,但 jison 似乎没有实现它们。)关键是状态更改在 [] 令牌,它们不受状态更改的影响。因此,状态更改发生在当前先行标记之前还是之后并不重要,因为我们不需要它在第二个下一个标记(可能是数字)之前生效。

给定输入 [10+a],此语法将正确输出 26。如果我们将 hex 标记非终结符移动到括号内:

      /* NOT CORRECT */
    | '[' hex e unhex ']'       {$$ = ;}

然后开始条件更改发生在先行标记之后,因此 [10+a] 产生 20.