【问题标题】:sscanf and strtok not returning a "complete" answersscanf 和 strtok 没有返回“完整”答案
【发布时间】:2016-03-08 19:35:46
【问题描述】:

我有一串字符,用“|”分成两组;空间,垂直条/管道,空间。字符串“ACGT”中只会有四个字符。我的问题是,如果我使用 sscanf 或 strtok,我可以很好地读取第一个字符串组,但第二个字符串组只包含该组的第一个字符。

因此相关的片段是:

typedef struct {
  char strings[1][399]; // 2D array of the strings
  int length[1]; // Line Length 1 and 2
} DoubleLOT;

char line[1024]; // Each string can only be a max of 400 chars anyway
DoubleLOT inStrings; // structs to hold string sequences

// Init variables
for (a=0;a<=1;a++){
  strcpy(inStrings.strings[a], "");
  inStrings.length[a]=0;
}

strcpy(line, "GAAT | GAAT");

使用 sscanf();

sscanf(line, "%[ACGT] | %[ACGT]", inStrings.strings[0], inStrings.strings[1]);
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);

返回:

>GAAT< 4
>G< 2

使用 strtok() 如:

strcpy(inStrings.strings[0], strtok(line, " |"));
strcpy(inStrings.strings[1], strtok(NULL, " |"));
inStrings.length[0]=strlen(inStrings.strings[0]);
inStrings.length[1]=strlen(inStrings.strings[1]);
printf(">%s< %i\n", inStrings.strings[0], inStrings.length[0]);
printf(">%s< %i\n", inStrings.strings[1], inStrings.length[1]);

再次返回:

>GAAT< 4
>G< 2

在这个例子中,我想看到:

>GAAT< 4
>GAAT< 4

我已尝试删除 |来自“line”的字符仍然是同样的问题。我最初有 %s 而不是 %[ACGT],同样的问题。两个字符串在这里相同的事实对我没有任何帮助,但我认为一旦我解决了问题,那应该是无关紧要的。此外,我还尝试了多个不同的字符串。

我假设这是我正在使用内存或函数如何处理让我崩溃的内存的事情。我还假设&gt;G&lt; 2 最后指的是\0 - 我也无法弄清楚它是如何被注入到字符串中的。在 sscanf() 之后对“line”的检查表明它确实仍然完好无损,并且与函数调用之前的“line”相同——尽管我无法有意义地对 strtok() 做同样的事情。

注意: 我不在乎是否使用 strtok();一旦我把它分成两部分,我就完成了。

【问题讨论】:

  • 对于char strings[1][399];for (a=0;a&lt;=1;a++){ 是越界访问。
  • char foo[1][399] - 1 表示该维度的大小正好 1,这不是“Visual Basic 数学”。
  • doh 是的,我确实记得数组是 0 引用的,但忘记了您将它们分配为从 1 开始的总大小。TYVM

标签: c strtok scanf


【解决方案1】:

这里发生的是未定义的行为。您声明您的结构有一个名为 strings 的成员,该成员是 1 x 399 个字符的数组;另一个 lengthone 整数数组,但在其范围之外写入。

你的typedef应该是

typedef struct {
    char strings[2][399];
    int length[2];
} DoubleLOT;

或者,如果字符串的最大长度为 400 个字符,如您在 cmets 中所述,则应将 399 替换为 401 - 400 个字符并终止 '\0' .


但除此之外,我可以告诉您平台上发生了什么,以及您看到该输出的确切原因。

下面的结构

typedef struct {
    char strings[1][399]; // 2D array of the strings
    int length[1]; // Line Length 1 and 2
} DoubleLOT;

在普通的 LP64 架构上,会有一个 1x399 的 char 数组,后跟 1 个填充字节,然后是一个 32 位整数的 4 对齐数组。

现在,当您复制到 inString.strings[0] 时,只要字符串适合这 399 个字符,一切都很好。但是写入inString.strings[1] 是未定义的行为,因为未分配该内存。然而,在 这种 的情况下,一切似乎都很好,因为写入字符串 "GAAT" 以便 'G' 进入填充字节,而 "AAT" 和终止 '\0' 将被覆盖inString.length[0]

然后你写inString.strings[0]的长度; 4 in little endian,转换成inString.length[0]。字节0x04, 0x00, 0x00, 0x00 被写入字节'A', 'A', 'T' and '\0'

现在inString.strings[1] 看起来只有 1 个字符;第二个,ASCII 4,是一个不可打印的控制字符。但它就在那里,事实证明strlen(inString.strings[1]) 是 2,而不是 1。

最后,strlen(inString.strings[1]) 被写在堆栈/全局变量上的其他东西上,跟在 DoubleLOT inStrings; 之后。

【讨论】:

  • 很抱歉迟到的评论 - 效果很好。我应该在一英里外看到的。贝当克特。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-09-16
  • 2018-04-18
  • 1970-01-01
  • 2020-07-13
  • 1970-01-01
相关资源
最近更新 更多