sscanf 和 strtok 没有返回 "complete" 答案
sscanf and strtok not returning a "complete" answer
我有一串字符,用“|”分成两组; space,垂直 bar/pipe,space。字符串中永远只有四个字符,"ACGT"。我的问题是,如果我使用 sscanf 或 strtok,我可以很好地读取第一个字符串组,但第二个字符串组只包含该组的第一个字符。
因此相关的片段是:
typedef struct {
char strings[1][399]; // 2D array of the strings
int length[1]; // Line Length 1 and 2
} DoubleLOT;
char line[1024]; // Each string can only be a max of 400 chars anyway
DoubleLOT inStrings; // structs to hold string sequences
// Init variables
for (a=0;a<=1;a++){
strcpy(inStrings.strings[a], "");
inStrings.length[a]=0;
}
strcpy(line, "GAAT | GAAT");
使用 sscanf();
sscanf(line, "%[ACGT] | %[ACGT]", inStrings.strings[0], inStrings.strings[1]);
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);
returns:
>GAAT< 4
>G< 2
使用 strtok() 如:
strcpy(inStrings.strings[0], strtok(line, " |"));
strcpy(inStrings.strings[1], strtok(NULL, " |"));
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);
returns 再一次:
>GAAT< 4
>G< 2
在这个例子中,我想看到:
>GAAT< 4
>GAAT< 4
我试过删除 |来自 "line" 的字符,仍然是同样的问题。我最初有 %s 而不是 %[ACGT],同样的问题。这两个字符串在这里相同这一事实对我没有任何帮助,但我认为一旦我解决了问题,那应该是无关紧要的。此外,我也尝试过使用多个不同的字符串。
我假设这是我正在用内存做的事情,或者函数如何处理内存,这让我很困惑。我还假设 >G< 2
最后指的是 [=18=]
- 我也不知道它是如何被注入到字符串中的。在 sscanf() 之后对 "line" 的检查表明它确实仍然完好无损并且与函数调用之前的 "line" 相同——尽管我不能对 strtok() 做同样的有意义的事情。
注意:我不在乎我是否使用 strtok(); 咀嚼 "line";一旦我把它分成两部分,我就完成了它。
这里发生的是未定义的行为。您声明了您的结构有一个名为 strings
的成员,它是 1 x 399 个字符的数组;另一个 length
是 一个 整数的数组,但是写在它们的边界之外。
你的typedef
应该是
typedef struct {
char strings[2][399];
int length[2];
} DoubleLOT;
或者,如果字符串的最大长度为 400 个字符,如您在评论中所述,则应将 399 替换为 401 - 400 个字符并终止 '[=15=]'
.
但除此之外,我可以告诉您平台上发生了什么,以及为什么您会看到该输出。
以下结构
typedef struct {
char strings[1][399]; // 2D array of the strings
int length[1]; // Line Length 1 and 2
} DoubleLOT;
在普通的 LP64 架构上,会有一个 1x399 的字符数组,后跟 1 个填充字节,再后跟一个 32 位整数的 4 对齐数组。
现在,当您复制到 inString.strings[0]
时,只要字符串适合这 399 个字符,一切都很好。但是写入 inString.strings[1]
是未定义的行为,因为该内存未分配。然而,在 this 的情况下,一切似乎都很好,因为字符串 "GAAT"
被写入以便 'G'
进入填充字节,而 "AAT"
并且终止 '[=15=]'
将覆盖 inString.length[0]
。
之后写inString.strings[0]
的长度; 4 在 little endian 中,变成 inString.length[0]
。字节 0x04, 0x00, 0x00, 0x00
被写入字节 'A', 'A', 'T' and '[=26=]'
;
现在inString.strings[1]
看起来只有1个字符;第二个,ASCII 4,是一个不可打印的控制字符。但它确实存在,事实证明 strlen(inString.strings[1])
是 2,而不是 1。
最后,strlen(inString.strings[1])
被写在 stack/global 变量上的其他东西上,紧随 DoubleLOT inStrings;
。
我有一串字符,用“|”分成两组; space,垂直 bar/pipe,space。字符串中永远只有四个字符,"ACGT"。我的问题是,如果我使用 sscanf 或 strtok,我可以很好地读取第一个字符串组,但第二个字符串组只包含该组的第一个字符。
因此相关的片段是:
typedef struct {
char strings[1][399]; // 2D array of the strings
int length[1]; // Line Length 1 and 2
} DoubleLOT;
char line[1024]; // Each string can only be a max of 400 chars anyway
DoubleLOT inStrings; // structs to hold string sequences
// Init variables
for (a=0;a<=1;a++){
strcpy(inStrings.strings[a], "");
inStrings.length[a]=0;
}
strcpy(line, "GAAT | GAAT");
使用 sscanf();
sscanf(line, "%[ACGT] | %[ACGT]", inStrings.strings[0], inStrings.strings[1]);
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);
returns:
>GAAT< 4
>G< 2
使用 strtok() 如:
strcpy(inStrings.strings[0], strtok(line, " |"));
strcpy(inStrings.strings[1], strtok(NULL, " |"));
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);
returns 再一次:
>GAAT< 4
>G< 2
在这个例子中,我想看到:
>GAAT< 4
>GAAT< 4
我试过删除 |来自 "line" 的字符,仍然是同样的问题。我最初有 %s 而不是 %[ACGT],同样的问题。这两个字符串在这里相同这一事实对我没有任何帮助,但我认为一旦我解决了问题,那应该是无关紧要的。此外,我也尝试过使用多个不同的字符串。
我假设这是我正在用内存做的事情,或者函数如何处理内存,这让我很困惑。我还假设 >G< 2
最后指的是 [=18=]
- 我也不知道它是如何被注入到字符串中的。在 sscanf() 之后对 "line" 的检查表明它确实仍然完好无损并且与函数调用之前的 "line" 相同——尽管我不能对 strtok() 做同样的有意义的事情。
注意:我不在乎我是否使用 strtok(); 咀嚼 "line";一旦我把它分成两部分,我就完成了它。
这里发生的是未定义的行为。您声明了您的结构有一个名为 strings
的成员,它是 1 x 399 个字符的数组;另一个 length
是 一个 整数的数组,但是写在它们的边界之外。
你的typedef
应该是
typedef struct {
char strings[2][399];
int length[2];
} DoubleLOT;
或者,如果字符串的最大长度为 400 个字符,如您在评论中所述,则应将 399 替换为 401 - 400 个字符并终止 '[=15=]'
.
但除此之外,我可以告诉您平台上发生了什么,以及为什么您会看到该输出。
以下结构
typedef struct {
char strings[1][399]; // 2D array of the strings
int length[1]; // Line Length 1 and 2
} DoubleLOT;
在普通的 LP64 架构上,会有一个 1x399 的字符数组,后跟 1 个填充字节,再后跟一个 32 位整数的 4 对齐数组。
现在,当您复制到 inString.strings[0]
时,只要字符串适合这 399 个字符,一切都很好。但是写入 inString.strings[1]
是未定义的行为,因为该内存未分配。然而,在 this 的情况下,一切似乎都很好,因为字符串 "GAAT"
被写入以便 'G'
进入填充字节,而 "AAT"
并且终止 '[=15=]'
将覆盖 inString.length[0]
。
之后写inString.strings[0]
的长度; 4 在 little endian 中,变成 inString.length[0]
。字节 0x04, 0x00, 0x00, 0x00
被写入字节 'A', 'A', 'T' and '[=26=]'
;
现在inString.strings[1]
看起来只有1个字符;第二个,ASCII 4,是一个不可打印的控制字符。但它确实存在,事实证明 strlen(inString.strings[1])
是 2,而不是 1。
最后,strlen(inString.strings[1])
被写在 stack/global 变量上的其他东西上,紧随 DoubleLOT inStrings;
。