使用多维字符数组时数据损坏

Corrupted data when using a multidimensional char array

我目前正在实现一个使用“外部排序”方法的功能,因为我必须在低 RAM 的设备上对一个大文件(+200K 行)进行排序,现在正试图做到这一点 运行 在 windows 电脑上。 我正在研究将文件拆分为经过排序的小文件的功能。

我面临的问题是,在函数创建的微小排序文件中,某些行上的数据是 t运行cated。

我很确定我在某个地方做错了,但还没有找到。你能帮我找出问题所在吗?

#include <stdio.h>
#include <string.h>
#include <stdlib.h>

#define MAX_LINE_LEN 50
#define MAX_LINES_SORTED 130

void createSortedFiles(FILE*);

int main()
{
    FILE *fp = fopen("C:\C\Tests\1.txt", "r+");

    if(fp == NULL){
        printf("Error opening fp");
        return 1;
    }

    createSortedFiles(fp);

    fclose(fp);

    return 0;
}

int cmp(const void *p1, const void *p2) {
    return strcmp(p1, p2);
}

void createSortedFiles(FILE* fp) {
    FILE* sfp;
    //FILE* sfp2 = fopen("C:\C\Tests\test.txt", "w+");
    char lines[MAX_LINES_SORTED][MAX_LINE_LEN + 1] = {0}, buffer[MAX_LINE_LEN + 1] = { 0 }, fnum[6];
    char fname[20] = "C:\C\Tests\";
    char *p;
    int i = 0, j = 0 /*file names*/, int max_lines = MAX_LINES_SORTED - 1;
    size_t N;

    while (1){
        p = fgets(buffer, MAX_LINE_LEN, fp);
        // fwrite(buffer, strlen(buffer), 1, sfp2);

        if(strlen(buffer) > 0 || i > 0){
            if(p != NULL)
                memcpy(lines[i], buffer, strlen(buffer));


            //If reached the max number of lines accepted in the array
            //Or reached EOF
            //=> Sort and write the array "lines"
            if (i >= max_lines || p == NULL) {
                N = sizeof(lines) / sizeof(lines[0]);
                qsort(lines, N, sizeof(*lines), cmp);

                //sets the name of the current file
                memset(&fname[11], 0, 9);
                itoa(j, fnum, 10);
                strcat(fname, fnum);

                if ((sfp = fopen(fname, "w+")) == NULL) {
                    printf("Error opening sfp");
                    return;
                }

                for (i = 0; i < N; i++) {
                    fwrite(lines[i], strlen(lines[i]), 1, sfp);
                }

                fclose(sfp);

                memset(lines, 0, sizeof(lines[0][0]) * MAX_LINES_SORTED * MAX_LINE_LEN);

                j++; i = -1; //because incremented right after
            }
        }

        if(p == NULL){
            break;
        }

        i++;
    }

    //fclose(sfp2);

    return;
}

以下是 fp 文件的示例(每行以 \r\n 结尾):

8023796280724;00060-014.W47
8023796280731;00060-014.W48
;0009070305/08007
;0009470337/08007
;0009490338/13001
;0010480311/08007
;0010830308/08007
;0011S
8033280129293;002004GRS4XL
;002015RSM
5708628117005;00207-630-06T42
5708628117012;00207-630-06T44
5708628117036;00207-630-06T46
4051428088756;647530241000045
4051428088763;647530241000046
4051428088770;647530241000047
;647BLPMF
4051428092586;648510256000040
4051428092593;648510256000041
4051428092609;648510256000042
4051428092616;648510256000043
4051428092623;648510256000044
4051428092630;648510256000045
4051428092647;648510256000046

您的“截断行”并不是真正的截断行,它们是先前文件留在缓冲区中的杂散数据。

这个数组:

#define MAX_LINE_LEN 50
#define MAX_LINES_SORTED 130

char lines[MAX_LINES_SORTED][MAX_LINE_LEN + 1];

有 6630 字节,但这里:

memset(lines, 0, sizeof(lines[0][0]) * MAX_LINES_SORTED * MAX_LINE_LEN);

你只将 6500 字节归零,最后两行保持原样。

您可以通过在大小计算中使用 (MAX_LINE_LEN +1) 来解决此问题,但数组可以更简洁(更可靠)地清零:

memset(lines, 0, sizeof(lines));