为什么 \x00 没有被 repr 转换为 \0答案

【问题标题】：Why is \x00 not converted to \0 by repr为什么 \x00 没有被 repr 转换为 \0
【发布时间】：2019-03-24 14:18:03
【问题描述】：

关于 Python 的 repr 有一个有趣的奇怪之处：

制表符\x09 表示为\t。但是，此约定不适用于空终止符。

为什么\x00 表示为\x00，而不是\0？

示例代码：

# Some facts to make sure we are on the same page
>>> '\x31' == '1'
True
>>> '\x09' == '\t'
True
>>> '\x00' == '\0'
True

>>> x = '\x31'
>>> y = '\x09'
>>> z = '\x00'
>>> x
'1' # As Expected
>>> y
'\t' # Okay
>>> z
'\x00' # Inconsistent - why is this not \0

【问题讨论】：

因为这还不够普通。 \0 并不是repr() 中唯一没有使用的这种转义。
@MartijnPieters 我认为这个问题可能仍被改写为“Python 库中的哪里 '\x09' 被翻译成 '\t'？”... 因为这样你就可以检查什么是什么和什么是'未转换。
见Is asking "why" questions on language specifications still considered primarily opinion-based?Meta Stack Overflow。当然，这是一个实施决策，但同样的考虑也适用。

标签： python repr

【解决方案1】：

简短的回答：因为这不是使用的特定转义。字符串表示仅使用单字符转义 \\、\n、\r、\t（当同时存在 " 和 ' 字符时加上 \'），因为对这些字符进行了显式测试.

其余部分要么被视为可打印并按原样包含，要么使用更长的转义序列包含（取决于 Python 版本和字符串类型，\xhh、\uhhhh 和 \Uhhhhhhhh，始终使用最短的3 个符合价值的选项）。

此外，在生成repr() 输出时，对于由一个空字节后跟一个从'1' 到'7' 的数字组成的字符串（所以bytes([0x00, 0x49]) 或@987654337 @等），您不能只在输出中使用\0，而不必转义下一个数字。 '\01' 是一个八进制转义序列，与'\x001' 的值不同，它是两个字节。虽然强制输出始终使用三个八进制数字（例如'\0001'）可能是一种解决方法，但坚持使用标准化、更简单的转义序列格式会更简单。向前扫描以查看下一个字符是否为八进制数字并切换输出样式只会产生令人困惑的输出（想象一下 SO 上的问题：'\x001' 和 '\0Ol' 之间有什么区别？）

输出是总是一致的。除了单引号（可以与' 或\' 一起出现，取决于" 字符的存在），Python 将始终对给定的代码点使用相同的转义序列样式。

如果你想研究产生输出的代码，你可以在Objects/unicodeobject.c unicode_repr() function 中找到 Python 3 str.__repr__ 实现，它使用

/* Escape quotes and backslashes */
if ((ch == quote) || (ch == '\\')) {
    PyUnicode_WRITE(okind, odata, o++, '\\');
    PyUnicode_WRITE(okind, odata, o++, ch);
    continue;
}


/* Map special whitespace to '\t', \n', '\r' */
if (ch == '\t') {
    PyUnicode_WRITE(okind, odata, o++, '\\');
    PyUnicode_WRITE(okind, odata, o++, 't');
}
else if (ch == '\n') {
    PyUnicode_WRITE(okind, odata, o++, '\\');
    PyUnicode_WRITE(okind, odata, o++, 'n');
}
else if (ch == '\r') {
    PyUnicode_WRITE(okind, odata, o++, '\\');
    PyUnicode_WRITE(okind, odata, o++, 'r');
}

对于单字符转义，后面是额外的检查更长的转义。对于 Python 2，similar but shorter PyString_Repr() function 的作用大致相同。

【讨论】：

这很棒而且很有见地。谢谢！

【解决方案2】：

如果它试图使用\0，那么它必须在紧跟它的数字时进行特殊情况，以防止它们被解释为八进制文字。始终使用\x00 更简单且始终正确。

【讨论】：