为什么这个 yacc+lex 基本解析器不处理 CONTROL+D / EOF？

Question

我有一个 yacc/lex 程序来处理这种行（在这个例子中它只处理一种格式，但我的想法是它显然会处理更多格式）：

% cat test.csv 
20191201 170003296,1.102290,1.102470,0
20191201 170004413,1.102320,1.102470,0
20191201 170005270,1.102290,1.102470,0
20191201 170006063,1.102280,1.102460,0
20191201 170006629,1.102260,1.102440,0
20191201 170007523,1.102410,1.102470,0
20191201 170007573,1.102410,1.102530,0
20191201 170035268,1.102490,1.102530,0
20191201 170036505,1.102490,1.102540,0
20191201 170043219,1.102490,1.102530,0

lex 词法分析器(lexer.l):

%{

#include <time.h>
#include "grammar.h"

void read_float_number(void);
void read_integer_number(void);
void read_date_YYYYMMDD_HHMMSSmmm(void);
void yyerror(const char* msg);

%}

%%    
                                                                                                /* YYYYMMDD HHMMSSmmm DATE */
[12][09][0-9][0-9][0-1][0-9][0-3][0-9][ ][0-2][0-9][0-5][0-9][0-5][0-9][0-9][0-9][0-9]          { read_date_YYYYMMDD_HHMMSSmmm(); return DATETIME; }

                                                                                                /* FLOAT NUMBER */
[0-9]+\.[0-9]+                                                                                  { read_float_number(); return FLOAT_NUMBER; }

                                                                                                /* INTEGER NUMBER */
[0-9]+                                                                                          { read_integer_number(); return INTEGER_NUMBER; }

                                                                                                /* PASS ',' CHARACTER */
,                                                                                               { return ','; } 

                                                                                                /* PASS '\n' CHARACTER */
\n                                                                                              { return '\n'; } 

                                                                                                /* PASS UNEXPECTED CHARACTER */
.                                                                                               { return yytext[0]; }


%%

/* READ FLOAT NUMBER */
void read_float_number(void) {
        printf("void read_float_number(void)\n");
        printf("#%s#\n", yytext);
        sscanf(yytext, "%lf", &yylval.float_number);
        printf("%lf\n", yylval.float_number);
}

/* READ INTEGER NUMBER */
void read_integer_number(void) {
        printf("void read_integer_number(void)\n");
        printf("#%s#\n", yytext);
        sscanf(yytext, "%ld", &yylval.integer_number);
        printf("%ld\n", yylval.integer_number);
}

/* READ YYYYMMDD HHMMSSmmm DATE */
void read_date_YYYYMMDD_HHMMSSmmm(void) {

        printf("void read_date_YYYYMMDD_HHMMSSmmm(void)\n");
        printf("#%s#\n", yytext);

        /*  DATETIME STRUCT TM */
        struct tm dt;

        /* READ VALUES */
        sscanf(yytext, "%4d%2d%2d %2d%2d%2d", &dt.tm_year, &dt.tm_mon, &dt.tm_mday, &dt.tm_hour, &dt.tm_min, &dt.tm_sec);

        /* NORMALIZE VALUES */
        dt.tm_year = dt.tm_year - 1900;         /* NORMALIZE YEAR */
        dt.tm_mon = dt.tm_mon - 1;              /* NORMALIZE MONTH */
        dt.tm_isdst = -1;                       /* NO INFORMATION ABOUT DST */
        mktime(&dt);                            /* NORMALIZE STRUCT TM */

        /* PRINT DATE TIME */
        char buffer[80];
        strftime(buffer, 80, "%c %Z", &dt);
        printf("%s\n", buffer);

        /* COPY STRUCT TM TO YACC RETURN VALUE */
        memcpy(&yylval.datetime, &dt, sizeof(dt));


}

yacc语法(grammar.y):

%{

#include <time.h>
#include <stdio.h>

%}

%union {

        struct tm       datetime;               /* DATE TIME VALUES */
        double          float_number;           /* 8 BYTES DOUBLE VALUE */
        long            integer_number;         /* 8 BYTES INTEGER VALUE */

}

%token  <datetime>              DATETIME
%token  <float_number>          FLOAT_NUMBER
%token  <integer_number>        INTEGER_NUMBER

%%

input:                          /* empty */
                        | input lastbid_lastask

lastbid_lastask:        DATETIME ',' FLOAT_NUMBER ',' FLOAT_NUMBER ',' INTEGER_NUMBER '\n'      { printf("MATCH %lf %lf %ld\n", , , ); }
                        ;

%%

extern FILE *yyin;

int main(int argc, char *argv[]) {

        while(!feof(yyin)) {
                yyparse();
        }
        return 0;

}

makefile:

% cat makefile 
CCFLAGS = -std=c89 -c
YFLAGS = -d     # Forces generation of y.tab.h
OBJS = lexer.o grammar.o
TARGET = readfile

readfile:               $(OBJS)
                        cc $(OBJS) -std=c89 -ll -o $(TARGET)

grammar.h grammar.o:    grammar.y
                        yacc $(YFLAGS) -ogrammar.c grammar.y
                        cc $(CCFLAGS) grammar.c

lexer.o:                lexer.l grammar.h
                        lex -olexer.c lexer.l
                        cc $(CCFLAGS) lexer.c

clean:
                        rm -f $(OBJS) grammar.[ch] lexer.c

现在我编译程序并且没有错误，但是当我尝试执行它时我得到这个：

% cat test.csv | ./readfile
Segmentation fault (core dumped)

现在如果我替换：

while(!feof(yyin))

与：

while(1)

然后我明白了：

% cat test.csv | ./readfile
void read_date_YYYYMMDD_HHMMSSmmm(void)
#20191201 170003296#
Sun Dec  1 17:00:03 2019 CET
void read_float_number(void)
#1.102290#
1.102290
void read_float_number(void)
#1.102470#
1.102470
void read_integer_number(void)
#0#
0
MATCH 1.102290 1.102470 0
void read_date_YYYYMMDD_HHMMSSmmm(void)
#20191201 170004413#
Sun Dec  1 17:00:04 2019 CET
void read_float_number(void)
#1.102320#
1.102320
void read_float_number(void)
#1.102470#
1.102470
void read_integer_number(void)
#0#
0
...

所以它可以工作，但程序不会以 EOF 结束。虽然我知道核心转储可能意味着很多事情，但我可以做些什么来进一步定位问题并获得正常行为？

Answer 1

不要在循环中调用 yyparse()。它将解析整个输入和 return；当它 returns 你知道整个输入已经被解析（或者遇到语法错误）。应该不需要任何 EOF 测试。

（在个别情况下，您需要打破此规则，其中大部分与扫描仪 returning 输入结束指示符而不是输入结束有关，或者解析器使用 YYACCEPT/YYABORT 以提前终止解析。换句话说，如果您遇到需要打破此规则的情况，您已经知道您必须这样做。）

while (!feof(file)) {…} 有一个完整的 FAQ entry 解释为什么它几乎总是一个错误。（总结：在读取检测到 EOF 后设置 EOF 标志，因此在读取之前未设置 EOF 的事实证明什么都没有。while(!feof(file)) 习语很好地保证了在文件末尾你会得到一个意想不到的 EOF ——意想不到的意思是“但我刚刚检查了 EOF...”。）

不过，我认为常见问题解答并未涵盖此特定问题，该问题特定于使用 (f)lex 的程序。当 (f)lex 扫描器到达文件末尾时，它会将 yyin 设置为 NULL。然后，如果 yywrap 告诉它没有更多的输入，yylex returns 0，它告诉它的调用者 (yyparse) 已经到达文件末尾。然后 yyparse 完成解析和 returns。如果你然后循环，yyin 是 NULL，feof(NULL) 是未定义的行为。这就是你的程序出现段错误的原因。

当您删除 feof 测试（但仍然循环）时，您重新输入 yyparse，但这次 yyin 设置为 NULL。 flex 扫描仪将其理解为“使用默认输入”，即 stdin。如果 yyin 之前是某个输入文件，这意味着 yyparse 的新调用将尝试从终端获取其输入，这可能不是您所期望的。另一方面，如果是 stdin 达到了 EOF，那么您将处于一个硬循环中，不断从 stdin.
接收新的 EOF 信号

为什么这个 yacc+lex 基本解析器不处理 CONTROL+D / EOF？

Why this yacc+lex basic parser does not handle CONTROL+D / EOF?

c

yacc

lex

c89