如何为错误创建语法规则?
How can I create a grammar rule for an error?
我正在用 C 编写一个编译器,我使用 bison 作为语法,使用 flex 作为标记。为了提高错误消息的质量,一些常见的错误需要出现在语法中。然而,这有副作用,野牛认为无效输入实际上是有效的。
例如,考虑这个语法:
program
: command ';' program
| command ';'
| command {yyerror("Missing ;.");} // wrong input
;
command
: INC
| DEC
;
其中 INC
和 DEC
是标记,program
是初始符号。在这种情况下,INC;
是一个有效的程序,但 INC
不是,并且会生成一条错误消息。函数 yyparse()
,但是,returns 0 就好像程序是正确的。
查看 bison 手册,我找到了宏 YYERROR
,它的行为应该就像解析器本身发现错误一样。但是即使我在调用 yyerror()
之后添加 YYERROR
,函数 yyparse()
仍然是 returns 0。我可以改用 YYABORT
,但那样会停止关于第一个错误,这很糟糕,不是我想要的。
有没有办法让 yyparse()
return 1 不在第一个错误上停止?
由于您打算从语法错误中恢复,因此您将无法使用 yyparse
中的 return 代码来表示发生了一个或多个错误。相反,您必须自己跟踪该信息。
这样做的传统方法是使用全局错误计数(仅显示关键部分):
%{
int parse_error_count = 0;
%}
%%
program: statement { yyerror("Missing semicolon");
++parse_error_count; }
%%
int parse_interface() {
parse_error_count = 0;
int status = yyparse();
if (status) return status; /* Might have run out of memory */
if (parse_error_count) return 3; /* yyparse returns 0, 1 or 2 */
return 0;
}
一个更现代的解决方案是为 yyparse 定义一个额外的 "out" 参数:
%parse-param { int* error_count }
%%
program: statement { yyerror("Missing semicolon");
++*error_count; }
%%
int main() {
int error_count = 0;
int status = yyparse(&error_count);
if (status || error_count) { /* handle error */ }
最后,如果您确实需要从 bison 生成的代码中导出符号 yyparse
,您可以执行以下丑陋的 hack:
%code top {
#define yyparse internal_yyparse
}
%parse-param { int* error_count }
%%
program: statement { yyerror("Missing semicolon");
++*error_count; }
%%
#undef yyparse
int yyparse() {
int error_count = 0;
int status = internal_yyparse(&error_count);
// Whatever you want to do as a summary
return status ? status : error_count ? 1 : 0;
}
yyerror()
只是打印一条错误消息。它不会改变 yyparse()
returns.
您的尝试不是一个好主意。您将极大地扩展语法,并且 运行 有使其模棱两可的主要风险。您需要做的就是删除调用yyerror()
的产生式。该输入无论如何都会产生语法错误,这将导致 yyparse()
不是 return 0。您正在养狗并自己吠叫。您应该检查的是解析器看不到的语义错误。
如果您真的想改进错误消息,解析表和状态信息中有足够的信息可以告诉您预期的下一个标记是什么。然而,在大多数情况下,它是如此之大,打印它毫无意义。但是程序员习惯整理'syntax error'。不要出汗。编写编译器已经够难了。
注意你应该让你的语法左递归以避免过多的堆栈使用:例如,program : program ';' command
.
我正在用 C 编写一个编译器,我使用 bison 作为语法,使用 flex 作为标记。为了提高错误消息的质量,一些常见的错误需要出现在语法中。然而,这有副作用,野牛认为无效输入实际上是有效的。
例如,考虑这个语法:
program
: command ';' program
| command ';'
| command {yyerror("Missing ;.");} // wrong input
;
command
: INC
| DEC
;
其中 INC
和 DEC
是标记,program
是初始符号。在这种情况下,INC;
是一个有效的程序,但 INC
不是,并且会生成一条错误消息。函数 yyparse()
,但是,returns 0 就好像程序是正确的。
查看 bison 手册,我找到了宏 YYERROR
,它的行为应该就像解析器本身发现错误一样。但是即使我在调用 yyerror()
之后添加 YYERROR
,函数 yyparse()
仍然是 returns 0。我可以改用 YYABORT
,但那样会停止关于第一个错误,这很糟糕,不是我想要的。
有没有办法让 yyparse()
return 1 不在第一个错误上停止?
由于您打算从语法错误中恢复,因此您将无法使用 yyparse
中的 return 代码来表示发生了一个或多个错误。相反,您必须自己跟踪该信息。
这样做的传统方法是使用全局错误计数(仅显示关键部分):
%{
int parse_error_count = 0;
%}
%%
program: statement { yyerror("Missing semicolon");
++parse_error_count; }
%%
int parse_interface() {
parse_error_count = 0;
int status = yyparse();
if (status) return status; /* Might have run out of memory */
if (parse_error_count) return 3; /* yyparse returns 0, 1 or 2 */
return 0;
}
一个更现代的解决方案是为 yyparse 定义一个额外的 "out" 参数:
%parse-param { int* error_count }
%%
program: statement { yyerror("Missing semicolon");
++*error_count; }
%%
int main() {
int error_count = 0;
int status = yyparse(&error_count);
if (status || error_count) { /* handle error */ }
最后,如果您确实需要从 bison 生成的代码中导出符号 yyparse
,您可以执行以下丑陋的 hack:
%code top {
#define yyparse internal_yyparse
}
%parse-param { int* error_count }
%%
program: statement { yyerror("Missing semicolon");
++*error_count; }
%%
#undef yyparse
int yyparse() {
int error_count = 0;
int status = internal_yyparse(&error_count);
// Whatever you want to do as a summary
return status ? status : error_count ? 1 : 0;
}
yyerror()
只是打印一条错误消息。它不会改变 yyparse()
returns.
您的尝试不是一个好主意。您将极大地扩展语法,并且 运行 有使其模棱两可的主要风险。您需要做的就是删除调用yyerror()
的产生式。该输入无论如何都会产生语法错误,这将导致 yyparse()
不是 return 0。您正在养狗并自己吠叫。您应该检查的是解析器看不到的语义错误。
如果您真的想改进错误消息,解析表和状态信息中有足够的信息可以告诉您预期的下一个标记是什么。然而,在大多数情况下,它是如此之大,打印它毫无意义。但是程序员习惯整理'syntax error'。不要出汗。编写编译器已经够难了。
注意你应该让你的语法左递归以避免过多的堆栈使用:例如,program : program ';' command
.