区分右移 (>>) 和 Java 泛型
Distinguishing between right shift (>>) and Java generics
我正在为 java 在 flex 中编写词法分析器。
java 规范说:
"The longest possible translation is used at each step, even if the result does not ultimately make a correct program while another lexical translation would. There is one exception: if lexical translation occurs in a type context (§4.11) and the input stream has two or more consecutive > characters that are followed by a non-> character, then each > character must be translated to the token for the numerical comparison operator >."
那么我如何区分右移运算符和 <List<List
>>
?
最初的 Java 泛型提案 (JSR-14) 需要修改参数化类型的 Java 语法,以便在上下文中接受 >>
和 >>>
多个尖括号是可能的。 (我找不到有用的 JSR-14 权威 link,但 Gilad Bracha 的 GJ specification 在他的网站上仍然可用;语法修改显示在第 2.3 节中。)
据我所知,这些修改从未正式纳入任何 Java 标准;最终,JLS8 将更改合并到您在问题中引用的词法分析的描述中。 (参见 JDK-8021600,它也再现了最初提出的复杂语法。)
Bracha 等人提出的语法修改将起作用,但您可能会发现它们使合并其他语法更改变得更加复杂。 (我还没有真正深入地研究过这个问题,所以对于当前的 Java 语言规范来说这实际上可能不是问题。但对于未来的版本来说它仍然可能是一个问题。)
虽然上下文词法分析确实允许在 JLS 中实际使用更简单的语法,但它肯定会给词法分析带来困难。一种可能的方法是使用 scannerless parser 完全放弃词法分析;这肯定会起作用,但您将无法在 Bison/Flex 模型中完成它。此外,您可能会发现支持无扫描器解析所需的一些修改也需要对已发布的语法进行重大更改。
另一种可能性是使用来自解析器的词法反馈,通过合并中间规则操作 (MRA),在输入和退出类型上下文时打开和关闭 "type context" 标志。 (在 §4.11 中有完整的类型上下文列表,可用于在语法中找到适当的位置。)如果您尝试这样做,请注意 MRA 的执行与词法分析并不完全同步,因为解析器通常需要先行令牌来决定是否减少 MRA。您通常需要将 MRA 放在语法中比您想象的更早的一个符号,以便它在需要时真正生效。
另一种可能性是永远不会将 >>
和 >>>
识别为标记。相反,词法分析器可以 return 两个不同的 >
标记,当紧接的下一个字符是 >
:
时使用一个
>/> { return CONJUNCTIVE_GT; }
> { return INDEPENDENT_GT; }
/* These two don't need to be changed. */
>>= { return SHIFT_ASSIGN; }
>>>= { return LONG_SHIFT_ASSIGN; }
然后您可以修改语法以识别 >>
和 >>>
运算符,同时允许任何一种形式的 >
作为右尖括号:
shift_op : CONJUNCTIVE_GT INDEPENDENT_GT
long_shift_op: CONJUNCTIVE_GT CONJUNCTIVE_GT INDEPENDENT_GT
close_angle : CONJUNCTIVE_GT | INDEPENDENT_GT
gt_op : INDENPENDENT_GT /* This unit production is not really necessary */
这应该可行(虽然我还没有尝试过),但它不能很好地与 Bison/Yacc 运算符优先机制一起使用,因为您不能为非终结符声明优先级。因此,您需要使用具有显式运算符优先级规则的表达式语法,而不是使用优先级声明增强的歧义语法。
我正在为 java 在 flex 中编写词法分析器。 java 规范说:
"The longest possible translation is used at each step, even if the result does not ultimately make a correct program while another lexical translation would. There is one exception: if lexical translation occurs in a type context (§4.11) and the input stream has two or more consecutive > characters that are followed by a non-> character, then each > character must be translated to the token for the numerical comparison operator >."
那么我如何区分右移运算符和 <List<List
>>
?
最初的 Java 泛型提案 (JSR-14) 需要修改参数化类型的 Java 语法,以便在上下文中接受 >>
和 >>>
多个尖括号是可能的。 (我找不到有用的 JSR-14 权威 link,但 Gilad Bracha 的 GJ specification 在他的网站上仍然可用;语法修改显示在第 2.3 节中。)
据我所知,这些修改从未正式纳入任何 Java 标准;最终,JLS8 将更改合并到您在问题中引用的词法分析的描述中。 (参见 JDK-8021600,它也再现了最初提出的复杂语法。)
Bracha 等人提出的语法修改将起作用,但您可能会发现它们使合并其他语法更改变得更加复杂。 (我还没有真正深入地研究过这个问题,所以对于当前的 Java 语言规范来说这实际上可能不是问题。但对于未来的版本来说它仍然可能是一个问题。)
虽然上下文词法分析确实允许在 JLS 中实际使用更简单的语法,但它肯定会给词法分析带来困难。一种可能的方法是使用 scannerless parser 完全放弃词法分析;这肯定会起作用,但您将无法在 Bison/Flex 模型中完成它。此外,您可能会发现支持无扫描器解析所需的一些修改也需要对已发布的语法进行重大更改。
另一种可能性是使用来自解析器的词法反馈,通过合并中间规则操作 (MRA),在输入和退出类型上下文时打开和关闭 "type context" 标志。 (在 §4.11 中有完整的类型上下文列表,可用于在语法中找到适当的位置。)如果您尝试这样做,请注意 MRA 的执行与词法分析并不完全同步,因为解析器通常需要先行令牌来决定是否减少 MRA。您通常需要将 MRA 放在语法中比您想象的更早的一个符号,以便它在需要时真正生效。
另一种可能性是永远不会将 >>
和 >>>
识别为标记。相反,词法分析器可以 return 两个不同的 >
标记,当紧接的下一个字符是 >
:
>/> { return CONJUNCTIVE_GT; }
> { return INDEPENDENT_GT; }
/* These two don't need to be changed. */
>>= { return SHIFT_ASSIGN; }
>>>= { return LONG_SHIFT_ASSIGN; }
然后您可以修改语法以识别 >>
和 >>>
运算符,同时允许任何一种形式的 >
作为右尖括号:
shift_op : CONJUNCTIVE_GT INDEPENDENT_GT
long_shift_op: CONJUNCTIVE_GT CONJUNCTIVE_GT INDEPENDENT_GT
close_angle : CONJUNCTIVE_GT | INDEPENDENT_GT
gt_op : INDENPENDENT_GT /* This unit production is not really necessary */
这应该可行(虽然我还没有尝试过),但它不能很好地与 Bison/Yacc 运算符优先机制一起使用,因为您不能为非终结符声明优先级。因此,您需要使用具有显式运算符优先级规则的表达式语法,而不是使用优先级声明增强的歧义语法。