在使用平面内存模型(基本上所有内容)的实现中,强制转换为 uintptr_t 即可。
(但请参阅Should pointer comparisons be signed or unsigned in 64-bit x86? 讨论是否应将指针视为带符号的,包括在 C 中的 UB 对象之外形成指针的问题。)
但具有非平面内存模型的系统确实存在,考虑它们可以帮助解释当前情况,例如 C++ 对 < 和 std::less 有不同的规范。
< 指向在 C 中是 UB(或至少在某些 C++ 修订版中未指定)的单独对象的指针的部分观点是允许奇怪的机器,包括非平面内存模型。
一个众所周知的例子是 x86-16 实模式,其中指针是段:偏移,通过(segment << 4) + offset 形成一个 20 位线性地址。同一个线性地址可以用多个不同的 seg:off 组合来表示。
C++ std::less 在奇怪的 ISA 上的指针可能需要很昂贵,例如在 x86-16 上“规范化”一个段:偏移量,使其偏移量 可移植 方法来实现这一点。 规范化uintptr_t(或指针对象的对象表示)所需的操作是特定于实现的。
但即使在 C++ std::less 必须昂贵的系统上,< 也不必如此。例如,假设一个对象适合一个段内的“大”内存模型,< 可以只比较偏移部分,甚至不用考虑段部分。 (同一对象内的指针将具有相同的段,否则它是 C 中的 UB。C++17 更改为仅“未指定”,这可能仍然允许跳过规范化并仅比较偏移量。)这是假设所有指向任何部分的指针一个对象总是使用相同的seg 值,从不规范化。这是您期望 ABI 对“大”内存模型而不是“巨大”内存模型所要求的。 (见discussion in comments)。
(例如,这种内存模型的最大对象大小可能为 64kiB,但最大总地址空间更大,可以容纳许多此类最大大小的对象。ISO C 允许实现对对象大小进行限制,即低于size_t 可以表示的最大值(无符号)SIZE_MAX。例如,即使在平面内存模型系统上,GNU C 也将最大对象大小限制为PTRDIFF_MAX,因此大小计算可以忽略有符号溢出。)参见this answer和 cmets 中的讨论。
如果你想允许大于一个段的对象,你需要一个“巨大”的内存模型,它必须担心在执行 p++ 循环遍历数组时或在执行索引 / 时溢出指针的偏移部分指针算术。这会导致任何地方的代码变慢,但可能意味着p < q 碰巧适用于指向不同对象的指针,因为针对“巨大”内存模型的实现通常会选择始终保持所有指针标准化。请参阅What are near, far and huge pointers? - 一些用于 x86 实模式的真正 C 编译器确实有一个选项来编译“巨大”模型,其中所有指针默认为“巨大”,除非另有声明。
x86 实模式分段并不是唯一可能的非平面内存模型,它只是一个有用的具体示例,用于说明 C/C++ 实现如何处理它。在现实生活中,实现扩展了 ISO C 与 far 与 near 指针的概念,允许程序员选择何时可以摆脱仅存储/传递 16 位偏移量部分,相对于一些常见的数据段.
但是纯 ISO C 实现必须在小型内存模型(除了具有 16 位指针的相同 64kiB 中的代码之外的所有内容)或大型或巨大的所有指针都是 32 位之间进行选择。一些循环可以通过仅增加偏移部分来优化,但指针对象不能优化为更小。
如果您知道任何给定实现的神奇操作是什么,您就可以用纯 C 实现它。问题是不同的系统使用不同的寻址方式,并且任何可移植宏都没有参数化细节。
也许不是:它可能涉及从特殊的段表或其他东西中查找某些东西,例如像 x86 保护模式而不是实模式,其中地址的段部分是索引,而不是要左移的值。您可以在保护模式下设置部分重叠的段,并且地址的段选择器部分甚至不一定按照与相应段基地址相同的顺序排列。如果 GDT 和/或 LDT 未映射到进程中的可读页面,则在 x86 保护模式下从 seg:off 指针获取线性地址可能涉及系统调用。
(当然,x86 的主流操作系统使用平面内存模型,因此段基数始终为 0(使用 fs 或 gs 段的线程本地存储除外),并且只有 32 位或 64 位“offset”部分用作指针。)
您可以为各种特定平台手动添加代码,例如默认情况下假设为平面,或 #ifdef 检测 x86 实模式并将 uintptr_t 拆分为 16 位的两半 seg -= off>>4; off &= 0xf; 然后将这些部分组合回一个 32 位数字。