如何在 Flex（词法分析器）中定义数字格式？

Question

我需要什么：

可接受 > 1234 & 12.34

错误（不可接受）> 12.34.56

Scanner.L :

      ...
%%

[0-9]+                printf("Number ");
[0-9]+"."[0-9]+       printf("Decimal_Number ");
"."                   printf("Dot "):

%%
      ...

编译后 & 运行 :

Input :
1234    12.34    12.34.65

Output :
Number    Decimal_Number      Decimal_Number Dot Number

如何打印 Error 而不是 Decimal_Number Dot Number （或者忽略它）？

~~是否可以将数字前后的 space 定义为分隔符？~~

Answer 1

这不是词法分析器的职责，而是解析器（yacc 或 bison）的职责。如果您将 . 定义为有效符号，那么

就不足为奇了

12.34.56

被标记为

Decimal_Number Dot Number

重点是解析器没有接受该标记序列的规则，因此稍后会引发错误。白色 space 通常会被忽略，因此在数字之间强制使用 space 是没有意义的，尤其是在您可能拥有 12.34+56.78 不会被标记为 Decimal_Number Binary_Operator Decimal_Number 的上下文中因为它缺少白色 space.

Answer 2

通常认为在解析器中而不是在扫描器中检测 12.34.56 之类的错误会更好。但也有一种观点认为，您可以通过词法检测错误来生成更好的错误消息。

如果你想这样做，你可以使用两种模式；第一个只检测正确的数字，第二个检测更大的字符串集，包括所有错误的字符串（但不包括任何可能合法的字符串）。这依赖于 (f)lex 的匹配行为：它总是接受最长的匹配，如果最长的标记被两个或多个规则匹配，它使用第一个匹配规则。

例如，假设您想接受点本身作为 '.'，数字作为 NUMBER 标记，并在包含多个点的数字字符串上产生错误。你可以用三个规则来做到这一点：

  /* If the token is just a dot, match it here */
\.                             { return '.';    }
  /* Match integers without decimal points */
[[:digit:]]+                   { return INTEGER; }
  /* If the token is a number including a decimal point,
   * match it here. This pattern will also match just '.',
   * but the previous rules will be preferred.) */
[[:digit:]]*\.[[:digit:]]*     { return FLOAT; }
  /* This rule matches any sequence of dots and digits.
   * That will also match single dots and correct numbers, but
   * again, the previous rules are preferred. */
[.[:digit:]]+                  { /* signal error */
                                 return BADNUMBER; }

您需要非常小心地使用上述解决方案。例如，最后一条规则将匹配 .. 和 ...，它们可能是有效的标记（甚至是 . 个标记的有效序列。）

例如，假设您的语言允许 "range" 表达式，例如 4 .. 17（表示从 4 到 17 的整数列表，或类似的整数）。您的用户可能希望 4..17 被接受为范围表达式，但上面的内容会产生 BADNUMBER 错误，即使您添加了规则

".."                           { return RANGE; }

在开头，因为 4.. 将在扫描的前一个点匹配 BADNUMBER。

为了避免错误警报，我们需要修改 BADNUMBER 规则以避免匹配包含两个（或更多）连续点的字符串。并且我们还需要确保 4..17 不被词法化为 4. 后跟 .17。（第二个问题可以通过坚持 . 既不开始也不结束数字标记来避免，但这可能会惹恼一些用户。）

因此，我们从实际的点标记开始：

"."                            { return '.'; }
".."                           { return RANGE; }
"..."                          { return ELLIPSIS; }

为了避免过度匹配后跟 .. 的数字，我们可以使用 flex 的尾随上下文运算符。在这里，仅当字符串后跟 . 以外的其他内容时，我们才将以 . 结尾的数字序列识别为数字：

[[:digit:]]+                   { return INTEGER; }
  /* Change * to + so that we don't do numbers ending with . */
[[:digit:]]*(\.[[:digit:]]+)?  { return FLOAT; }
  /* Numbers which end with dot not followed by dot */
[[:digit:]]+\./[^.]            { return FLOAT; }

现在我们需要修复错误规则。首先，我们将其限制为识别每个点后跟一个数字的字符串。然后，与上面类似，我们确实匹配尾随一个点后没有另一个点的情况：

[[:digit:]]*(\.[[:digit:]]+)+  { return BADNUMBER; }
[[:digit:]]*(\.[[:digit:]]+)+\./[^.] { return BADNUMBER; }

Answer 3

您可以查看我的程序来处理您的问题。但是当您尝试使用 lex 时，您应该知道只要它匹配任何情况，它就会起作用。现在修改如下：

%%

[0-9]+                {printf("Number ");}
[0-9]+[.][0-9]*[.]+[0-9|.]*       {printf("error ");}
[0-9]+[.][0-9]+       {printf("Decimal_Number ");}
%%

现在程序可以正常运行了。

Input :
1234    12.34    12.34.65

Output :
Number    Decimal_Number     Error

如何在 Flex（词法分析器）中定义数字格式？

How to define numbers format in Flex (lexical analyzer)?

c

compiler-construction

lex

lexical-analysis

flex-lexer