【问题标题】:Is accessing the "value" of a linker script variable undefined behavior in C?是否在 C 中访问链接描述文件变量未定义行为的“值”?
【发布时间】:2019-09-01 11:31:35
【问题描述】:

GNU ld(链接器脚本)手册部分3.5.5 Source Code Reference 提供了一些关于如何在C 源代码中访问链接器脚本“变量”(实际上只是整数地址)的重要信息。我用了这个信息。广泛使用链接器脚本变量,我在这里写了这个答案:How to get value of variable defined in ld linker script from C

但是,很容易做错并尝试访问链接描述文件变量的(错误地)而不是其地址,因为这有点深奥。手册(上面的链接)说:

这意味着您无法访问 链接描述文件定义符号的 - 它没有价值 - 你所能做的就是访问链接描述文件定义符号的地址

因此,当您在源代码中使用链接描述文件定义的符号时,您应该始终获取符号的地址,并且永远不要尝试使用它的值

问题:那么,如果您确实尝试访问链接描述文件变量的,这是“未定义行为”吗? p>

快速复习:

想象一下在链接器脚本中(例如:STM32F103RBTx_FLASH.ld)你有:

/* Specify the memory areas */
MEMORY
{
    FLASH (rx)      : ORIGIN = 0x8000000,  LENGTH = 128K
    RAM (xrw)       : ORIGIN = 0x20000000, LENGTH = 20K
}

/* Some custom variables (addresses) I intend to access from my C source code */
__flash_start__ = ORIGIN(FLASH);
__flash_end__ = ORIGIN(FLASH) + LENGTH(FLASH);
__ram_start__ = ORIGIN(RAM);
__ram_end__ = ORIGIN(RAM) + LENGTH(RAM);

在你的 C 源代码中你可以这样做:

// 1. correct way A:
extern uint32_t __flash_start__;
printf("__flash_start__ addr = 0x%lX\n", (uint32_t)&__flash_start__);

// OR 2. correct way B (my preferred approach):
extern uint32_t __flash_start__[]; // not a true array; [] is required to access linker script variables (addresses) as though they were normal variables
printf("__flash_start__ addr = 0x%lX\n", (uint32_t)__flash_start__);

// OR 3. COMPLETELY WRONG WAY TO DO IT!
// - IS THIS UNDEFINED BEHAVIOR?
extern uint32_t __flash_start__;
printf("__flash_start__ addr = 0x%lX\n", __flash_start__);

打印输出示例

(这是真实的输出:它实际上是由 STM32 单片机编译、运行和打印的):

  1. __flash_start__ addr = 0x8000000
  2. __flash_start__ addr = 0x8000000
  3. __flash_start__ addr = 0x20080000 完全错误的(即使它编译并运行)!

更新:

回复@Eric Postpischil 的第一条评论:

C 标准根本没有定义任何关于链接描述文件符号的内容。任何行为规范都取决于 GNU 工具。也就是说,如果链接描述文件符号标识了内存中存储某些有效对象的位置,那么我希望访问该对象的值能够正常工作,如果它是以其正确的类型访问的。假设 flash_start 通常是可访问的内存,并且除了您的系统对 flash_start 的内容有任何要求外,理论上您可以放置​​一个 uint32_t(使用适当的输入到链接器),然后通过 flash_start 访问它。

是的,但这不是我的问题。我不确定你是否注意到我的问题的微妙之处。看看我提供的例子。确实,您可以很好地访问此位置,但请确保您了解如何您这样做,然后我的问题就会变得明显。尤其是上面的示例 3,它是错误的,即使对于 C 程序员来说它看起来是正确的。要阅读uint32_t,例如__flash_start__,您可以这样做:

extern uint32_t __flash_start__;
uint32_t u32 = *((uint32_t *)&__flash_start__); // correct, even though it *looks like* you're taking the address (&) of an address (__flash_start__)

或者这个:

extern uint32_t __flash_start__[];
uint32_t u32 = *((uint32_t *)__flash_start__); // also correct, and my preferred way of doing it because it looks more correct to the trained "C-programmer" eye

但绝对不是这个:

extern uint32_t __flash_start__;
uint32_t u32 = __flash_start__; // incorrect; <==UPDATE: THIS IS ALSO CORRECT! (and more straight-forward too, actually; see comment discussion under this question)

不是这个:

extern uint32_t __flash_start__;
uint32_t u32 = *((uint32_t *)__flash_start__); // incorrect, but *looks* right

相关:

  1. Why do STM32 gcc linker scripts automatically discard all input sections from these standard libraries: libc.a, libm.a, libgcc.a?
  2. [我的回答]How to get value of variable defined in ld linker script from C

【问题讨论】:

  • C 标准根本没有定义任何关于链接描述文件符号的内容。任何行为规范都取决于 GNU 工具。也就是说,如果链接描述文件符号标识了内存中存储某些有效对象的位置,那么我希望访问该对象的值能够正常工作,如果它是以其正确的类型访问的。假设__flash_start__ 通常是可访问的内存,并且除了您的系统对__flash_start__ 的内容有任何要求外,理论上您可以放置​​一个uint32_t(使用链接器的适当输入)然后通过@ 访问它987654339@.
  • 我不确定你是否注意到我的问题的微妙之处,我需要更多的空间来回复,所以我直接在上面问题的底部回复了你的评论。
  • 那个文档写得不是很好,而且你把第一句话看得太字面意思了。这里真正发生的是,链接器对符号“值”的概念和编程语言对标识符“值”的概念是不同的。对于链接器来说,符号的值只是一个与之关联的数字。在编程语言中,值是存储在与标识符关联的(有时是名义上的)存储中的数字(或某种类型的值集中的其他元素)。...
  • ... 文档建议您链接器的符号值出现在像 C 这样的语言中,作为与标识符关联的地址,而不是其存储的内容。当它告诉你“永远不要尝试使用它的价值”时,它就太过分了。正确的是,仅定义链接器符号不会为编程语言对象保留必要的存储空间,因此仅具有链接器符号并不能为您提供可以访问的存储空间。但是,如果确保通过其他方式分配存储空间,那么,当然……
  • ……它可以作为编程语言对象工作。 没有一般禁止在 C 中使用链接器符号作为标识符,包括访问其 C 值,前提是您已正确分配存储空间或满足此要求。 如果链接器值为 @987654340 @ 是一个有效的内存地址,并且您已确保在该地址有 uint32_t 的存储空间,并且它是 uint32_t 的正确对齐地址,然后可以在 C 中访问 __flash_start__ 就好像它一样是uint32_t。这不是由 C 标准定义的,而是由 GNU 工具定义的。

标签: c linker ld binutils linker-scripts


【解决方案1】:

简短的回答:

访问链接描述文件变量的“值”不是未定义的行为,只要您希望将实际数据存储在内存中的该位置而不是地址该内存或链接脚本变量的“值”恰好被 C 代码视为 内存中的地址 并且不是值.

是的,这有点令人困惑,因此请仔细阅读 3 遍。 本质上,如果您想访问链接描述文件变量的值,只需确保您的链接描述文件已设置为防止您不想要的任何内容最终出现在该内存地址中,这样您想要的任何内容实际上都存在那里。这样,读取该内存地址处的值将为您提供您期望在那里的有用信息。

但是,如果您使用链接描述文件变量来存储某种“值”,那么在 C 中获取这些链接描述文件变量的“值”的方法是读取它们的 地址,因为您在链接描述文件中分配给变量的“值”被 C 编译器视为该链接描述文件变量的“地址”,因为链接描述文件旨在操作内存和内存地址,而不是传统的 C变量。

在我的问题下,这里有一些非常有价值且正确的 cmets,我认为值得在此答案中发布,因此它们永远不会迷路。 请根据我上面的问题为他的 cmets 投票。

C 标准根本没有定义任何关于链接描述文件符号的内容。任何行为规范都取决于 GNU 工具。也就是说,如果链接描述文件符号标识了内存中存储某些有效对象的位置,那么我希望访问该对象的值能够正常工作,如果它是以其正确的类型访问的。假设__flash_start__ 通常是可访问的内存,并且除了您的系统对__flash_start__ 的任何要求之外,理论上您可以放置​​一个uint32_t(使用链接器的适当输入)然后通过@ 访问它987654328@.
——埃里克·波斯特皮希尔

该文档写得不是很好,而且您对第一句话的理解过于字面意思。这里真正发生的是,链接器对符号“值”的概念和编程语言对标识符“值”的概念是不同的。对于链接器来说,符号的值只是一个与之关联的数字。在编程语言中,值是存储在与标识符关联的(有时是名义上的)存储中的数字(或某种类型的值集中的其他元素)。文档建议您链接器的符号值出现在像 C 这样的语言中,作为与标识符关联的地址,而不是其存储的内容......

这部分非常重要,我们应该更新 GNU 链接器脚本手册:

当它告诉你“永远不要尝试使用它的价值”时,这就太过分了。

正确的是,仅定义链接器符号不会为编程语言对象保留必要的存储空间,因此仅具有链接器符号并不能为您提供可以访问的存储空间。但是,如果确保通过其他方式分配存储空间,那么它当然可以作为编程语言对象工作。 没有一般禁止在 C 中使用链接器符号作为标识符,包括访问其 C 值,前提是您已正确分配存储空间或满足此要求。 如果链接器值为 @987654329 @ 是一个有效的内存地址,并且您已确保在该地址有 uint32_t 的存储空间,并且它是 uint32_t 的正确对齐地址,然后可以在 C 中访问 __flash_start__ 就好像它一样是uint32_t。这不是由 C 标准定义的,而是由 GNU 工具定义的。
——埃里克·波斯特皮希尔

长答案:

我在问题中说:

// 1. correct way A:
extern uint32_t __flash_start__;
printf("__flash_start__ addr = 0x%lX\n", (uint32_t)&__flash_start__);

// OR 2. correct way B (my preferred approach):
extern uint32_t __flash_start__[]; // not a true array; [] is required to access linker script variables (addresses) as though they were normal variables
printf("__flash_start__ addr = 0x%lX\n", (uint32_t)__flash_start__);

// OR 3. COMPLETELY WRONG WAY TO DO IT!
// - IS THIS UNDEFINED BEHAVIOR?
extern uint32_t __flash_start__;
printf("__flash_start__ addr = 0x%lX\n", __flash_start__);

(请参阅问题下的讨论,了解我是如何得出这个结论的)。

具体看上面的#3

实际上,如果您的目标是读取__flash_start__地址,在本例中为0x8000000,那么是的,这是完全错误的。但是,这不是未定义的行为!相反,它实际上正在做的是将该地址 (0x8000000) 的 contents (值) 读取为 uint32_t 类型。换句话说,它只是读取 FLASH 部分的前 4 个字节,并将它们解释为 uint32_tcontents(此地址处的uint32_t 值)在这种情况下恰好是0x20080000

为了进一步证明这一点,以下是完全相同的:

// Read the actual *contents* of the `__flash_start__` address as a 4-byte value!

// forward declaration to make a variable defined in the linker script
// accessible in the C code
extern uint32_t __flash_start__; 

// These 2 read techniques do the exact same thing.
uint32_t u32_1 = __flash_start__;                 // technique 1
uint32_t u32_2 = *((uint32_t *)&__flash_start__); // technique 2
printf("u32_1 = 0x%lX\n", u32_1);
printf("u32_2 = 0x%lX\n", u32_2);

输出是:

u32_1 = 0x20080000
u32_2 = 0x20080000

请注意,它们产生相同的结果。它们每个都产生一个有效的uint32_t-type 值,该值存储在地址0x8000000

然而,事实证明,上面显示的u32_1 技术是一种更直接、更直接的读取值的方法,并且再次不是未定义的行为。相反,它正确读取了该地址的值(内容)。

我似乎在兜圈子。无论如何,头脑被吹了,但我现在明白了。在我应该只使用上面显示的u32_2 技术之前,我被说服了,但事实证明它们都很好,而且u32_1 技术显然更直接(我又在圈子里说话) )。 :)

干杯。


深入挖掘:存储在我的 FLASH 存储器开头的 0x20080000 值从何而来?

还有一个小花絮。我实际上在 STM32F777 单片机上运行了这个测试代码,它有 512KiB 的 RAM。由于 RAM 从地址 0x20000000 开始,这意味着 0x20000000 + 512K = 0x20080000。这恰好也是地址为零的 RAM 的内容,因为Programming Manual PM0253 Rev 4, pg。 42,“图 10. 向量表”显示向量表的前 4 个字节包含“初始 SP [堆栈指针] 值”。见这里:

我知道向量表位于程序存储器的开头,它位于闪存中,因此这意味着 0x20080000 是我的初始堆栈指针值。这是有道理的,因为Reset_Handler 是程序的开始(顺便说一下,它的向量恰好是向量表开头的第二个 4 字节值),它做的第一件事,如我的“startup_stm32f777xx.s”启动程序集文件所示,将堆栈指针(sp)设置为_estack

Reset_Handler:  
  ldr   sp, =_estack      /* set stack pointer */

此外,_estack 在我的链接器脚本中定义如下:

/* Highest address of the user mode stack */
_estack = ORIGIN(RAM) + LENGTH(RAM);    /* end of RAM */

所以你有它!我的向量表中的第一个 4 字节值,就在 Flash 的开头,被设置为初始堆栈指针值,在我的链接描述文件文件中定义为 _estack_estack 是地址我的 RAM 的末尾,即 0x20000000 + 512K = 0x20080000。所以,这一切都说得通!我刚刚证明我读到了正确的价值观!

另见:

  1. [我的回答]How to get value of variable defined in ld linker script from C

【讨论】:

    猜你喜欢
    • 2021-11-17
    • 2017-02-21
    • 2012-01-13
    • 1970-01-01
    • 2012-06-11
    • 2012-02-28
    • 1970-01-01
    • 2021-01-31
    • 1970-01-01
    相关资源
    最近更新 更多