如何在 Flex(词法分析器)中定义数字格式?
How to define numbers format in Flex (lexical analyzer)?
我需要什么:
可接受 > 1234
& 12.34
错误(不可接受)> 12.34.56
Scanner.L :
...
%%
[0-9]+ printf("Number ");
[0-9]+"."[0-9]+ printf("Decimal_Number ");
"." printf("Dot "):
%%
...
编译后 & 运行 :
Input :
1234 12.34 12.34.65
Output :
Number Decimal_Number Decimal_Number Dot Number
如何打印 Error
而不是 Decimal_Number Dot Number
(或者忽略它)?
是否可以将数字前后的 space
定义为分隔符?
这不是词法分析器的职责,而是解析器(yacc 或 bison)的职责。如果您将 .
定义为有效符号,那么
就不足为奇了
12.34.56
被标记为
Decimal_Number Dot Number
重点是解析器没有接受该标记序列的规则,因此稍后会引发错误。白色 space 通常会被忽略,因此在数字之间强制使用 space 是没有意义的,尤其是在您可能拥有 12.34+56.78
不会被标记为 Decimal_Number Binary_Operator Decimal_Number
的上下文中因为它缺少白色 space.
通常认为在解析器中而不是在扫描器中检测 12.34.56
之类的错误会更好。但也有一种观点认为,您可以通过词法检测错误来生成更好的错误消息。
如果你想这样做,你可以使用两种模式;第一个只检测正确的数字,第二个检测更大的字符串集,包括所有错误的字符串(但不包括任何可能合法的字符串)。这依赖于 (f)lex 的匹配行为:它总是接受最长的匹配,如果最长的标记被两个或多个规则匹配,它使用第一个匹配规则。
例如,假设您想接受点本身作为 '.'
,数字作为 NUMBER
标记,并在包含多个点的数字字符串上产生错误。你可以用三个规则来做到这一点:
/* If the token is just a dot, match it here */
\. { return '.'; }
/* Match integers without decimal points */
[[:digit:]]+ { return INTEGER; }
/* If the token is a number including a decimal point,
* match it here. This pattern will also match just '.',
* but the previous rules will be preferred.) */
[[:digit:]]*\.[[:digit:]]* { return FLOAT; }
/* This rule matches any sequence of dots and digits.
* That will also match single dots and correct numbers, but
* again, the previous rules are preferred. */
[.[:digit:]]+ { /* signal error */
return BADNUMBER; }
您需要非常小心地使用上述解决方案。例如,最后一条规则将匹配 ..
和 ...
,它们可能是有效的标记(甚至是 .
个标记的有效序列。)
例如,假设您的语言允许 "range" 表达式,例如 4 .. 17
(表示从 4 到 17 的整数列表,或类似的整数)。您的用户可能希望 4..17
被接受为范围表达式,但上面的内容会产生 BADNUMBER 错误,即使您添加了规则
".." { return RANGE; }
在开头,因为 4..
将在扫描的前一个点匹配 BADNUMBER
。
为了避免错误警报,我们需要修改 BADNUMBER 规则以避免匹配包含两个(或更多)连续点的字符串。并且我们还需要确保 4..17
不被词法化为 4.
后跟 .17
。 (第二个问题可以通过坚持 .
既不开始也不结束数字标记来避免,但这可能会惹恼一些用户。)
因此,我们从实际的点标记开始:
"." { return '.'; }
".." { return RANGE; }
"..." { return ELLIPSIS; }
为了避免过度匹配后跟 ..
的数字,我们可以使用 flex 的尾随上下文运算符。在这里,仅当字符串后跟 .
以外的其他内容时,我们才将以 .
结尾的数字序列识别为数字:
[[:digit:]]+ { return INTEGER; }
/* Change * to + so that we don't do numbers ending with . */
[[:digit:]]*(\.[[:digit:]]+)? { return FLOAT; }
/* Numbers which end with dot not followed by dot */
[[:digit:]]+\./[^.] { return FLOAT; }
现在我们需要修复错误规则。首先,我们将其限制为识别每个点后跟一个数字的字符串。然后,与上面类似,我们确实匹配尾随一个点后没有另一个点的情况:
[[:digit:]]*(\.[[:digit:]]+)+ { return BADNUMBER; }
[[:digit:]]*(\.[[:digit:]]+)+\./[^.] { return BADNUMBER; }
您可以查看我的程序来处理您的问题。但是当您尝试使用 lex
时,您应该知道只要它匹配任何情况,它就会起作用。
现在修改如下:
%%
[0-9]+ {printf("Number ");}
[0-9]+[.][0-9]*[.]+[0-9|.]* {printf("error ");}
[0-9]+[.][0-9]+ {printf("Decimal_Number ");}
%%
现在程序可以正常运行了。
Input :
1234 12.34 12.34.65
Output :
Number Decimal_Number Error
我需要什么:
可接受 > 1234
& 12.34
错误(不可接受)> 12.34.56
Scanner.L :
...
%%
[0-9]+ printf("Number ");
[0-9]+"."[0-9]+ printf("Decimal_Number ");
"." printf("Dot "):
%%
...
编译后 & 运行 :
Input :
1234 12.34 12.34.65
Output :
Number Decimal_Number Decimal_Number Dot Number
如何打印 Error
而不是 Decimal_Number Dot Number
(或者忽略它)?
是否可以将数字前后的 space
定义为分隔符?
这不是词法分析器的职责,而是解析器(yacc 或 bison)的职责。如果您将 .
定义为有效符号,那么
12.34.56
被标记为
Decimal_Number Dot Number
重点是解析器没有接受该标记序列的规则,因此稍后会引发错误。白色 space 通常会被忽略,因此在数字之间强制使用 space 是没有意义的,尤其是在您可能拥有 12.34+56.78
不会被标记为 Decimal_Number Binary_Operator Decimal_Number
的上下文中因为它缺少白色 space.
通常认为在解析器中而不是在扫描器中检测 12.34.56
之类的错误会更好。但也有一种观点认为,您可以通过词法检测错误来生成更好的错误消息。
如果你想这样做,你可以使用两种模式;第一个只检测正确的数字,第二个检测更大的字符串集,包括所有错误的字符串(但不包括任何可能合法的字符串)。这依赖于 (f)lex 的匹配行为:它总是接受最长的匹配,如果最长的标记被两个或多个规则匹配,它使用第一个匹配规则。
例如,假设您想接受点本身作为 '.'
,数字作为 NUMBER
标记,并在包含多个点的数字字符串上产生错误。你可以用三个规则来做到这一点:
/* If the token is just a dot, match it here */
\. { return '.'; }
/* Match integers without decimal points */
[[:digit:]]+ { return INTEGER; }
/* If the token is a number including a decimal point,
* match it here. This pattern will also match just '.',
* but the previous rules will be preferred.) */
[[:digit:]]*\.[[:digit:]]* { return FLOAT; }
/* This rule matches any sequence of dots and digits.
* That will also match single dots and correct numbers, but
* again, the previous rules are preferred. */
[.[:digit:]]+ { /* signal error */
return BADNUMBER; }
您需要非常小心地使用上述解决方案。例如,最后一条规则将匹配 ..
和 ...
,它们可能是有效的标记(甚至是 .
个标记的有效序列。)
例如,假设您的语言允许 "range" 表达式,例如 4 .. 17
(表示从 4 到 17 的整数列表,或类似的整数)。您的用户可能希望 4..17
被接受为范围表达式,但上面的内容会产生 BADNUMBER 错误,即使您添加了规则
".." { return RANGE; }
在开头,因为 4..
将在扫描的前一个点匹配 BADNUMBER
。
为了避免错误警报,我们需要修改 BADNUMBER 规则以避免匹配包含两个(或更多)连续点的字符串。并且我们还需要确保 4..17
不被词法化为 4.
后跟 .17
。 (第二个问题可以通过坚持 .
既不开始也不结束数字标记来避免,但这可能会惹恼一些用户。)
因此,我们从实际的点标记开始:
"." { return '.'; }
".." { return RANGE; }
"..." { return ELLIPSIS; }
为了避免过度匹配后跟 ..
的数字,我们可以使用 flex 的尾随上下文运算符。在这里,仅当字符串后跟 .
以外的其他内容时,我们才将以 .
结尾的数字序列识别为数字:
[[:digit:]]+ { return INTEGER; }
/* Change * to + so that we don't do numbers ending with . */
[[:digit:]]*(\.[[:digit:]]+)? { return FLOAT; }
/* Numbers which end with dot not followed by dot */
[[:digit:]]+\./[^.] { return FLOAT; }
现在我们需要修复错误规则。首先,我们将其限制为识别每个点后跟一个数字的字符串。然后,与上面类似,我们确实匹配尾随一个点后没有另一个点的情况:
[[:digit:]]*(\.[[:digit:]]+)+ { return BADNUMBER; }
[[:digit:]]*(\.[[:digit:]]+)+\./[^.] { return BADNUMBER; }
您可以查看我的程序来处理您的问题。但是当您尝试使用 lex
时,您应该知道只要它匹配任何情况,它就会起作用。
现在修改如下:
%%
[0-9]+ {printf("Number ");}
[0-9]+[.][0-9]*[.]+[0-9|.]* {printf("error ");}
[0-9]+[.][0-9]+ {printf("Decimal_Number ");}
%%
现在程序可以正常运行了。
Input :
1234 12.34 12.34.65
Output :
Number Decimal_Number Error