在flex中匹配C风格多行注释的最佳解决方案?
Best solution of matching C-style multiple line comments in flex?
我收集了很多在flex中匹配C风格多行注释的方案:
(1) 忘记参考
"/*" { BEGIN COMMENT; }
<COMMENT>"*/" { BEGIN INITIAL; }
<COMMENT>([^*]|\n)+|. { /* skip everything */ }
<COMMENT><<EOF>> {
fatal_error("unterminated comment!");
return 0;
}
<INITIAL>{
"/*" BEGIN(IN_COMMENT);
}
<IN_COMMENT>{
"*/" BEGIN(INITIAL);
[^*\n]+ // eat comment in chunks
"*" // eat the lone star
\n yylineno++;
}
(3) 丢弃 https://www.cs.virginia.edu/~cr4bd/flex-manual/Start-Conditions.html#Start-Conditions
中的 C 注释
%x comment
%%
int line_num = 1;
"/*" BEGIN(comment);
<comment>[^*\n]* /* eat anything that's not a '*' */
<comment>"*"+[^*/\n]* /* eat up '*'s not followed by '/'s */
<comment>\n ++line_num;
<comment>"*"+"/" BEGIN(INITIAL);
(4) difficulty getting c-style comments in flex/lex
"/*"((("*"[^/])?)|[^*])*"*/"
(5)
"/*"((\*+[^/*])|([^*]))*\**"*/"
(6) 这实际上是一个用于匹配C风格多行注释的正则表达式字符串,我不确定是否可以为flex重写:
String pat = "/\*[^*]*\*+(?:[^/*][^*]*\*+)*/";
实际上哪一个是最好的?
我已经用这些代码测试了 (1)-(5) 的解决方案,它们都按预期工作:
(1)条正确评论
/* this is a comment */ int a = 1; /* this is a comment */
/* this is a comment */
/* this is a comment */
/* this is a comment */
/* this is a comment */
/* this is a comment */
/* this is a comment */
int main(void) {
return /*
*/
0;
}
/* this is a comment */
他们都给我:
int a = 1;
int main(void) {
return
0;
}
这是预期的。
(2) 错误评论/* xxx */ */
/* this is a comment */ int a = 1; /* this is a wrong one */ */
他们都给我:
int a = 1; */
这是预期的。
(3) 错误评论 /* xxx <EOF>
:
/* this is comment */ int a = 1; /*** this is commment
他们都给我:
int a = 1; /*** this is comment
所以我认为所有 (1)-(5) 都可以正常工作,也许它们的性能不同,但这是另一回事了。
个人比较喜欢(4),理由如下:
- (1)-(3)写的代码多,(4)和(5)更简单。
- (4) 模式比 (5) 更简单。
None 给出的模式实际上对 C 或 C++ 是正确的,因为它们没有考虑线拼接或三字母组合。 (这些天你可能认为三字母表是不必要的,我不会不同意,但即使它们现在已被弃用,你可能仍然需要处理使用它们的遗留文件。)
(对于既不是 C 也不是 C++,但具有类似的多行注释的语言,这可能不是一个考虑因素。在那种情况下,它是整体正则表达式和开始条件之间的 toss-up,但我会选择开始条件以避免 slow-down 来自很长的评论。)
虽然您可以编写包含拼接的整体正则表达式,但如果您使用基于 start-condition 的解决方案,您会发现编写(和阅读)起来要容易得多。在从 flex 手册中提取的两个中,我认为 (3) 的性能稍微好一些,尽管在这两种情况下我都倾向于让 flex 进行行号计数而不是尝试明确地这样做。即使 %option yylineno
一次匹配一行注释也可能是个好主意,因为注释可能很长,而 flex 针对不超过 8k 的标记进行了优化。
要处理线拼接,您可以将其修改为:
%option yylineno
%x COMMENT
splice (\[[:blank:]]*\n)*
%%
[/]{splice}[*] BEGIN(COMMENT);
<COMMENT>{
[^*\\n]+ /* eat anything that's not a '*' or line end */
"*"+[^*/\\n]* /* eat up '*'s not followed by '/'s or line end */
[*]{splice}[/] BEGIN(INITIAL);
[*\] /* stray '*' or backslash */
\n /* Reduce the amount of work needed for yylineno */
}
如果你想处理三字母,你需要扩展 splice
的定义并为 ?
.
添加更多规则到 <COMMENT>
换行符是行尾的反斜杠,表示下一行是续行。反斜杠和换行符从输入文本中删除,以便续行的最后一个字符紧跟在续行的第一个字符之后。因此,以下是有效评论:
/\
************** START HERE **************\
/
Gcc 和 clang(很可能还有其他编译器)允许反斜杠字符后跟空格,否则有效延续和杂散反斜杠之间的区别是不可见的。
续行在几乎所有其他处理之前进行处理,因此它们可以放在字符串文字、注释或任何标记中。它们主要用于 #define
预处理器指令,以符合预处理器指令是单个输入行的要求。但是有意混淆 C 代码的人可以更自由地使用它们。例如,它们可以用于在多个物理行上扩展 C++ 样式的单行注释:
// This is a comment...\
which extends over...\
three lines.
行继续之前发生的唯一处理是三字母处理。您可以在维基百科(或其他地方)上搜索三字母表;我将仅限于指出反斜杠是具有等效三字母 ??/
的字符之一。由于三字母在连续行之前处理,因此拼接多行注释的第一个示例可以写成:
/??/
************** START HERE **************\
/
有些编译器默认不处理三字母;如果看到 trigraph,他们可能会发出警告。例如,如果您想使用 gcc 尝试上述操作,则需要指定 ISO C 标准(例如 -std=c11
)或提供 -trigraphs
command-line 标志。
我收集了很多在flex中匹配C风格多行注释的方案:
(1) 忘记参考
"/*" { BEGIN COMMENT; }
<COMMENT>"*/" { BEGIN INITIAL; }
<COMMENT>([^*]|\n)+|. { /* skip everything */ }
<COMMENT><<EOF>> {
fatal_error("unterminated comment!");
return 0;
}
<INITIAL>{
"/*" BEGIN(IN_COMMENT);
}
<IN_COMMENT>{
"*/" BEGIN(INITIAL);
[^*\n]+ // eat comment in chunks
"*" // eat the lone star
\n yylineno++;
}
(3) 丢弃 https://www.cs.virginia.edu/~cr4bd/flex-manual/Start-Conditions.html#Start-Conditions
中的 C 注释%x comment
%%
int line_num = 1;
"/*" BEGIN(comment);
<comment>[^*\n]* /* eat anything that's not a '*' */
<comment>"*"+[^*/\n]* /* eat up '*'s not followed by '/'s */
<comment>\n ++line_num;
<comment>"*"+"/" BEGIN(INITIAL);
(4) difficulty getting c-style comments in flex/lex
"/*"((("*"[^/])?)|[^*])*"*/"
(5)
"/*"((\*+[^/*])|([^*]))*\**"*/"
(6) 这实际上是一个用于匹配C风格多行注释的正则表达式字符串,我不确定是否可以为flex重写:
String pat = "/\*[^*]*\*+(?:[^/*][^*]*\*+)*/";
实际上哪一个是最好的?
我已经用这些代码测试了 (1)-(5) 的解决方案,它们都按预期工作:
(1)条正确评论
/* this is a comment */ int a = 1; /* this is a comment */
/* this is a comment */
/* this is a comment */
/* this is a comment */
/* this is a comment */
/* this is a comment */
/* this is a comment */
int main(void) {
return /*
*/
0;
}
/* this is a comment */
他们都给我:
int a = 1;
int main(void) {
return
0;
}
这是预期的。
(2) 错误评论/* xxx */ */
/* this is a comment */ int a = 1; /* this is a wrong one */ */
他们都给我:
int a = 1; */
这是预期的。
(3) 错误评论 /* xxx <EOF>
:
/* this is comment */ int a = 1; /*** this is commment
他们都给我:
int a = 1; /*** this is comment
所以我认为所有 (1)-(5) 都可以正常工作,也许它们的性能不同,但这是另一回事了。
个人比较喜欢(4),理由如下:
- (1)-(3)写的代码多,(4)和(5)更简单。
- (4) 模式比 (5) 更简单。
None 给出的模式实际上对 C 或 C++ 是正确的,因为它们没有考虑线拼接或三字母组合。 (这些天你可能认为三字母表是不必要的,我不会不同意,但即使它们现在已被弃用,你可能仍然需要处理使用它们的遗留文件。)
(对于既不是 C 也不是 C++,但具有类似的多行注释的语言,这可能不是一个考虑因素。在那种情况下,它是整体正则表达式和开始条件之间的 toss-up,但我会选择开始条件以避免 slow-down 来自很长的评论。)
虽然您可以编写包含拼接的整体正则表达式,但如果您使用基于 start-condition 的解决方案,您会发现编写(和阅读)起来要容易得多。在从 flex 手册中提取的两个中,我认为 (3) 的性能稍微好一些,尽管在这两种情况下我都倾向于让 flex 进行行号计数而不是尝试明确地这样做。即使 %option yylineno
一次匹配一行注释也可能是个好主意,因为注释可能很长,而 flex 针对不超过 8k 的标记进行了优化。
要处理线拼接,您可以将其修改为:
%option yylineno
%x COMMENT
splice (\[[:blank:]]*\n)*
%%
[/]{splice}[*] BEGIN(COMMENT);
<COMMENT>{
[^*\\n]+ /* eat anything that's not a '*' or line end */
"*"+[^*/\\n]* /* eat up '*'s not followed by '/'s or line end */
[*]{splice}[/] BEGIN(INITIAL);
[*\] /* stray '*' or backslash */
\n /* Reduce the amount of work needed for yylineno */
}
如果你想处理三字母,你需要扩展 splice
的定义并为 ?
.
<COMMENT>
换行符是行尾的反斜杠,表示下一行是续行。反斜杠和换行符从输入文本中删除,以便续行的最后一个字符紧跟在续行的第一个字符之后。因此,以下是有效评论:
/\
************** START HERE **************\
/
Gcc 和 clang(很可能还有其他编译器)允许反斜杠字符后跟空格,否则有效延续和杂散反斜杠之间的区别是不可见的。
续行在几乎所有其他处理之前进行处理,因此它们可以放在字符串文字、注释或任何标记中。它们主要用于 #define
预处理器指令,以符合预处理器指令是单个输入行的要求。但是有意混淆 C 代码的人可以更自由地使用它们。例如,它们可以用于在多个物理行上扩展 C++ 样式的单行注释:
// This is a comment...\
which extends over...\
three lines.
行继续之前发生的唯一处理是三字母处理。您可以在维基百科(或其他地方)上搜索三字母表;我将仅限于指出反斜杠是具有等效三字母 ??/
的字符之一。由于三字母在连续行之前处理,因此拼接多行注释的第一个示例可以写成:
/??/
************** START HERE **************\
/
有些编译器默认不处理三字母;如果看到 trigraph,他们可能会发出警告。例如,如果您想使用 gcc 尝试上述操作,则需要指定 ISO C 标准(例如 -std=c11
)或提供 -trigraphs
command-line 标志。