写入数组外的位置答案

【问题标题】：Writing in the location outside of array写入数组外的位置
【发布时间】：2013-08-30 14:28:33
【问题描述】：

我刚刚开始学习编程。这是我的第一篇文章。我正在阅读 Kernighan 和 Ritchie 的《C 编程语言》一书，遇到了一个我不理解的示例（第 1.9 节，第 30 页）。

该程序将文本作为输入，确定最长的行并打印出来。声明了字符数组 line[MAXLINE]，其中 MAXLINE 为 1000。这应该意味着该数组的最后一个元素的索引为 MAXLINE-1，即 999。但是，如果您查看函数 getline，该函数将 line[] 数组作为参数传递（MAXLINE 作为 lim），似乎如果用户输入的行长于 MAXLINE，则 i 将递增直到 i = lim，即即，i = MAXLINE。因此，语句 line[i] = '\0' 将是 line[MAXLINE] = '\0'。

这在我看来是错误的 - 如果 line[] 的大小是 MAXLINE，我们如何写入 line[MAXLINE] 位置。它不会写入数组之外的位置吗？

我能想到的唯一解释是，在声明char array[size]时，C语言实际上创建了char array[size+1]数组，其中最后一个元素是为NULL字符保留的。如果是这样，这很令人困惑，并且在书中没有提到。谁能证实这一点，或解释发生了什么？

#include <stdio.h>
#define MAXLINE 1000 /* maximum input line length */
int getline(char line[], int maxline);
void copy(char to[], char from[]);

/* print the longest input line */
main()
{
    int len;                           /* current line length */
    int max;                          /* maximum length seen so far */
    char line[MAXLINE];          /* current input line */
    char longest[MAXLINE];     /* longest line saved here */

    max = 0;

    while ((len = getline(line, MAXLINE)) > 0)
           if (len > max) {
           max = len;
           copy(longest, line);
           }
    if (max > 0) /* there was a line */
           printf("%s", longest);

return 0;
}

/* getline: read a line into s, return length */
int getline(char s[],int lim)
{
    int c, i;

    for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)
        s[i] = c;
    if (c == '\n') {
        s[i] = c;
        ++i;
    }
    s[i] = '\0';

return i;
}

/* copy: copy 'from' into 'to'; assume to is big enough */
void copy(char to[], char from[])
{
    int i;
    i = 0;

    while ((to[i] = from[i]) != '\0')
        ++i;
}

【问题讨论】：

标签： c arrays null kernighan-and-ritchie

【解决方案1】：

一般回答

在分配的内存之外读/写是未定义的行为。

在许多情况下，它会导致可怕的Segmentation fault。

在某些情况下，您可能会因为运气而逃脱（例如，因为您访问的实际内存在物理/逻辑上是存在的，而不是在其他情况下使用）。

简单的答案是：不要这样做！保护您的代码不访问越界内存。

C 从不做任何魔术，比如分配 n+1 字节，而实际上你只要求分配 n 字节。

至于你的具体例子

for (i=0; i < lim-1 /* ... */ ; ++i)

这不会真正将i 增加到lim，因为条件确保i 小于lim-1，所以一旦它达到lim-1（它仍然是一个有效的索引） s[]) 它将停止 for-loop..

【讨论】：

【解决方案2】：

不，我认为它很干净。

请注意，自从本书编写以来，POSIX 已经标准化了一个getline() 函数，其接口完全不同；这可能会引起一些麻烦，但可以通过重命名 K&R 中的函数来解决。

代码是：

int getline(char s[],int lim)
{
    int c, i;

    for (i = 0; i < lim-1 && (c=getchar()) != EOF && c != '\n'; ++i)
        s[i] = c;
    if (c == '\n') {
        s[i] = c;
        ++i;
    }
    s[i] = '\0';

    return i;
}

让我们考虑两种情况：

998 个字符后跟换行符。
999 个字符后跟换行符。

第一种情况，当读取换行符之前的字符时，i为997，小于999（lim-1），所以执行getchar()，该字符既不是EOF也不是换行符，并且s[997]被赋值，i递增到998。由于i仍然小于999，所以读取换行符，终止循环。因为c 是换行符，所以s[998] 被赋予换行符，i 递增到 999。然后赋值 s[i] = '\0'; 写入元素 999，这是安全的。

第二种情况的分析类似。当读取换行符之前的字符时，i为998，小于999，所以执行getchar()，该字符既不是EOF也不是换行符，所以s[998]被赋值，i递增为999.由于i不再小于999，所以循环退出而不读取换行符；由于c 不是换行符，循环后if 的主体不会被执行；然后将 null 写入s[999]，这是安全的。

如果在换行符之前检测到 EOF（因此文件不以换行符结尾，并且在技术上不是根据 C 标准的文本文件），循环被安全地中断而不会溢出缓冲区。

是否有未涵盖的案例？

这称为测试边界条件。重要的是测试低于限制（以确保它工作正常）和限制（以确保它处理好）。大多数情况下，该算法不需要超过一个测试就在下面，一个测试在极限；有时，如果算法处理限制任一侧的多个数字（例如 3 个单元格的平均值），那么您必须在上限进行更多测试。下边界测试也很重要——测试 0、1、2、... 非常有价值。

【讨论】：

很好的解释，谢谢。接受答案的规则是什么？ Dennis Meng 先回答了我的问题，帮助我看到了我的错误，但是您的回答更全面，所以我不确定应该将哪个答案标记为已接受。
由您决定 - 选择您认为最有帮助的答案。如果你坚持 Dennis 的回答，我不会生气——它对你有帮助，而且他来得更快，所以选择它是有效的（总的来说，我认为你不应该改变它）。您现在有足够的声誉来支持和接受答案（干得好！）；您可以根据自己的意愿进行投票（尽管由于我的投票数已达到每日上限，因此如果您对我的答案进行投票，它不会影响我的分数，但是投票数会增加，而且很好）。所以，这一切都取决于你......

【解决方案3】：

如果您查看这一行，您会发现它在限制前两个字符停止了循环。 i < lim -1

for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)

如果 char 是 \n，它会被附加，因此在这种情况下 0 字节正好处于限制位置，如果该行正好短一个字节，那么限制（这是正确的，因为 0 字节也包括在内）。

【讨论】：

【解决方案4】：

这个for 循环似乎正在读取getline：

for (i=0; i < lim-1 && (c=getchar())!=EOF && c!='\n'; ++i)
    s[i] = c;

看起来i 会递增，直到达到lim - 1，而不是lim（这里的lim 等于MAXLINE，在您所说的情况下）。因此，如果该行比MAXLINE 长，它会在读取MAXLINE-1 字符后停止，并像您预期的那样在末尾添加'\0'。

【讨论】：

当 i = lim-2 语句 s[i] = c 被执行，然后 i 递增，所以现在 i = lim-1。接下来，将'\n'字符写入s[i]，即s[lim-1] = '\n'。接下来，i 再次递增，所以 i = lim，最后将 '\0' 写入 s[i]，即 s[lim] = '\0'。这是正确的吗？
@MichaelSB 否。如果您阅读该 if 语句，则仅在 c == '\n' 时添加换行符，这只有在通过 getchar() 读入换行符时才成立。如果是这种情况，那么i 必须仍然小于lim - 1，否则它甚至不会因为短路而执行getchar()。
这样说吧。假设 if 语句最终为真。可能发生的唯一方法是，如果我们通过 c != '\n' 变为 false 来打破该循环。如果是这种情况，那么 i < lim - 1 和 (c=getchar())!=EOF 由于短路而必须为真。因此，i 仍然小于lim - 1，当我们添加终止符时，我们可以确定i < lim。
哦，我现在明白了。如果输入行比 lim 长，它将被切断，并且不会附加换行符，只是 NULL。说得通。谢谢。