【问题标题】:Writing in the location outside of array写入数组外的位置
【发布时间】:2013-08-30 14:28:33
【问题描述】:

我刚刚开始学习编程。这是我的第一篇文章。我正在阅读 Kernighan 和 Ritchie 的《C 编程语言》一书,遇到了一个我不理解的示例(第 1.9 节,第 30 页)。

该程序将文本作为输入,确定最长的行并打印出来。 声明了字符数组 line[MAXLINE],其中 MAXLINE 为 1000。这应该意味着该数组的最后一个元素的索引为 MAXLINE-1,即 999。 但是,如果您查看函数 getline,该函数将 line[] 数组作为参数传递(MAXLINE 作为 lim),似乎如果用户输入的行长于 MAXLINE,则 i 将递增直到 i = lim,即即,i = MAXLINE。因此,语句 line[i] = '\0' 将是 line[MAXLINE] = '\0'。

这在我看来是错误的 - 如果 line[] 的大小是 MAXLINE,我们如何写入 line[MAXLINE] 位置。它不会写入数组之外的位置吗?

我能想到的唯一解释是,在声明char array[size]时,C语言实际上创建了char array[size+1]数组,其中最后一个元素是为NULL字符保留的。如果是这样,这很令人困惑,并且在书中没有提到。谁能证实这一点,或解释发生了什么?

#include <stdio.h>
#define MAXLINE 1000 /* maximum input line length */
int getline(char line[], int maxline);
void copy(char to[], char from[]);

/* print the longest input line */
main()
{
    int len;                           /* current line length */
    int max;                          /* maximum length seen so far */
    char line[MAXLINE];          /* current input line */
    char longest[MAXLINE];     /* longest line saved here */

    max = 0;

    while ((len = getline(line, MAXLINE)) > 0)
           if (len > max) {
           max = len;
           copy(longest, line);
           }
    if (max > 0) /* there was a line */
           printf("%s", longest);

return 0;
}

/* getline: read a line into s, return length */
int getline(char s[],int lim)
{
    int c, i;

    for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)
        s[i] = c;
    if (c == '\n') {
        s[i] = c;
        ++i;
    }
    s[i] = '\0';

return i;
}

/* copy: copy 'from' into 'to'; assume to is big enough */
void copy(char to[], char from[])
{
    int i;
    i = 0;

    while ((to[i] = from[i]) != '\0')
        ++i;
}

【问题讨论】:

    标签: c arrays null kernighan-and-ritchie


    【解决方案1】:

    一般回答

    在分配的内存之外读/写是未定义的行为。

    在许多情况下,它会导致可怕的Segmentation fault

    在某些情况下,您可能会因为运气而逃脱(例如,因为您访问的实际内存在物理/逻辑上是存在的,而不是在其他情况下使用)。

    简单的答案是:不要这样做!保护您的代码不访问越界内存。

    C 从不做任何魔术,比如分配 n+1 字节,而实际上你只要求分配 n 字节。

    至于你的具体例子

    for (i=0; i < lim-1 /* ... */ ; ++i)
    

    这不会真正将i 增加到lim,因为条件确保i 小于lim-1,所以一旦它达到lim-1(它仍然是一个有效的索引) s[]) 它将停止 for-loop..

    【讨论】:

      【解决方案2】:

      不,我认为它很干净。

      请注意,自从本书编写以来,POSIX 已经标准化了一个getline() 函数,其接口完全不同;这可能会引起一些麻烦,但可以通过重命名 K&R 中的函数来解决。

      代码是:

      int getline(char s[],int lim)
      {
          int c, i;
      
          for (i = 0; i < lim-1 && (c=getchar()) != EOF && c != '\n'; ++i)
              s[i] = c;
          if (c == '\n') {
              s[i] = c;
              ++i;
          }
          s[i] = '\0';
      
          return i;
      }
      

      让我们考虑两种情况:

      1. 998 个字符后跟换行符。
      2. 999 个字符后跟换行符。

      第一种情况,当读取换行符之前的字符时,i为997,小于999(lim-1),所以执行getchar(),该字符既不是EOF也不是换行符,并且s[997]被赋值,i递增到998。由于i仍然小于999,所以读取换行符,终止循环。因为c 是换行符,所以s[998] 被赋予换行符,i 递增到 999。然后赋值 s[i] = '\0'; 写入元素 999,这是安全的。

      第二种情况的分析类似。当读取换行符之前的字符时,i为998,小于999,所以执行getchar(),该字符既不是EOF也不是换行符,所以s[998]被赋值,i递增为999.由于i不再小于999,所以循环退出而不读取换行符;由于c 不是换行符,循环后if 的主体不会被执行;然后将 null 写入s[999],这是安全的。

      如果在换行符之前检测到 EOF(因此文件不以换行符结尾,并且在技术上不是根据 C 标准的文本文件),循环被安全地中断而不会溢出缓冲区。

      是否有未涵盖的案例?

      这称为测试边界条件。重要的是测试低于限制(以确保它工作正常)和限制(以确保它处理好)。大多数情况下,该算法不需要超过一个测试就在下面,一个测试在极限;有时,如果算法处理限制任一侧的多个数字(例如 3 个单元格的平均值),那么您必须在上限进行更多测试。下边界测试也很重要——测试 0、1、2、... 非常有价值。

      【讨论】:

      • 很好的解释,谢谢。接受答案的规则是什么? Dennis Meng 先回答了我的问题,帮助我看到了我的错误,但是您的回答更全面,所以我不确定应该将哪个答案标记为已接受。
      • 由您决定 - 选择您认为最有帮助的答案。如果你坚持 Dennis 的回答,我不会生气——它对你有帮助,而且他来得更快,所以选择它是有效的(总的来说,我认为你不应该改变它)。您现在有足够的声誉来支持和接受答案(干得好!);您可以根据自己的意愿进行投票(尽管由于我的投票数已达到每日上限,因此如果您对我的答案进行投票,它不会影响我的分数,但是投票数会增加,而且很好)。所以,这一切都取决于你......
      【解决方案3】:

      如果您查看这一行,您会发现它在限制前两个字符停止了循环。 i &lt; lim -1

      for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)
      

      如果 char 是 \n,它会被附加,因此在这种情况下 0 字节正好处于限制位置,如果该行正好短一个字节,那么限制(这是正确的,因为 0 字节也包括在内)。

      【讨论】:

        【解决方案4】:

        这个for 循环似乎正在读取getline

        for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)
            s[i] = c;
        

        看起来i 会递增,直到达到lim - 1,而不是lim(这里的lim 等于MAXLINE,在您所说的情况下)。因此,如果该行比MAXLINE 长,它会在读取MAXLINE-1 字符后停止,并像您预期的那样在末尾添加'\0'

        【讨论】:

        • 当 i = lim-2 语句 s[i] = c 被执行,然后 i 递增,所以现在 i = lim-1。接下来,将'\n'字符写入s[i],即s[lim-1] = '\n'。接下来,i 再次递增,所以 i = lim,最后将 '\0' 写入 s[i],即 s[lim] = '\0'。这是正确的吗?
        • @MichaelSB 否。如果您阅读该 if 语句,则仅在 c == '\n' 时添加换行符,这只有在通过 getchar() 读入换行符时才成立。如果是这种情况,那么i 必须仍然小于lim - 1,否则它甚至不会因为短路而执行getchar()
        • 这样说吧。假设 if 语句最终为真。可能发生的唯一方法是,如果我们通过 c != '\n' 变为 false 来打破该循环。如果是这种情况,那么 i &lt; lim - 1(c=getchar())!=EOF 由于短路而必须为真。因此,i 仍然小于lim - 1,当我们添加终止符时,我们可以确定i &lt; lim
        • 哦,我现在明白了。如果输入行比 lim 长,它将被切断,并且不会附加换行符,只是 NULL。说得通。谢谢。
        猜你喜欢
        • 2018-09-20
        • 2021-02-22
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多