sscanf 和 strtok 没有返回 "complete" 答案

sscanf and strtok not returning a "complete" answer

我有一串字符,用“|”分成两组; space,垂直 bar/pipe,space。字符串中永远只有四个字符,"ACGT"。我的问题是,如果我使用 sscanf 或 strtok,我可以很好地读取第一个字符串组,但第二个字符串组只包含该组的第一个字符。

因此相关的片段是:

typedef struct {
  char strings[1][399]; // 2D array of the strings
  int length[1]; // Line Length 1 and 2
} DoubleLOT;

char line[1024]; // Each string can only be a max of 400 chars anyway
DoubleLOT inStrings; // structs to hold string sequences

// Init variables
for (a=0;a<=1;a++){
  strcpy(inStrings.strings[a], "");
  inStrings.length[a]=0;
}

strcpy(line, "GAAT | GAAT");

使用 sscanf();

sscanf(line, "%[ACGT] | %[ACGT]", inStrings.strings[0], inStrings.strings[1]);
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);

returns:

>GAAT< 4
>G< 2

使用 strtok() 如:

strcpy(inStrings.strings[0], strtok(line, " |"));
strcpy(inStrings.strings[1], strtok(NULL, " |"));
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);

returns 再一次:

>GAAT< 4
>G< 2

在这个例子中,我想看到:

>GAAT< 4
>GAAT< 4

我试过删除 |来自 "line" 的字符,仍然是同样的问题。我最初有 %s 而不是 %[ACGT],同样的问题。这两个字符串在这里相同这一事实对我没有任何帮助,但我认为一旦我解决了问题,那应该是无关紧要的。此外,我也尝试过使用多个不同的字符串。

我假设这是我正在用内存做的事情,或者函数如何处理内存,这让我很困惑。我还假设 >G< 2 最后指的是 [=18=] - 我也不知道它是如何被注入到字符串中的。在 sscanf() 之后对 "line" 的检查表明它确实仍然完好无损并且与函数调用之前的 "line" 相同——尽管我不能对 strtok() 做同样的有意义的事情。

注意:我不在乎我是否使用 strtok(); 咀嚼 "line";一旦我把它分成两部分,我就完成了它。

这里发生的是未定义的行为。您声明了您的结构有一个名为 strings 的成员,它是 1 x 399 个字符的数组;另一个 length 一个 整数的数组,但是写在它们的边界之外。

你的typedef应该是

typedef struct {
    char strings[2][399];
    int length[2];
} DoubleLOT;

或者,如果字符串的最大长度为 400 个字符,如您在评论中所述,则应将 399 替换为 401 - 400 个字符并终止 '[=15=]'.


但除此之外,我可以告诉您平台上发生了什么,以及为什么您会看到该输出。

以下结构

typedef struct {
    char strings[1][399]; // 2D array of the strings
    int length[1]; // Line Length 1 and 2
} DoubleLOT;

在普通的 LP64 架构上,会有一个 1x399 的字符数组,后跟 1 个填充字节,再后跟一个 32 位整数的 4 对齐数组。

现在,当您复制到 inString.strings[0] 时,只要字符串适合这 399 个字符,一切都很好。但是写入 inString.strings[1] 是未定义的行为,因为该内存未分配。然而,在 this 的情况下,一切似乎都很好,因为字符串 "GAAT" 被写入以便 'G' 进入填充字节,而 "AAT"并且终止 '[=15=]' 将覆盖 inString.length[0]

之后写inString.strings[0]的长度; 4 在 little endian 中,变成 inString.length[0]。字节 0x04, 0x00, 0x00, 0x00 被写入字节 'A', 'A', 'T' and '[=26=]'

现在inString.strings[1]看起来只有1个字符;第二个,ASCII 4,是一个不可打印的控制字符。但它确实存在,事实证明 strlen(inString.strings[1]) 是 2,而不是 1。

最后,strlen(inString.strings[1]) 被写在 stack/global 变量上的其他东西上,紧随 DoubleLOT inStrings;