如何将 UTF-8 表示法转换为 python unicode 表示法答案

【问题标题】：How to convert UTF-8 notation to python unicode notation如何将 UTF-8 表示法转换为 python unicode 表示法
【发布时间】：2022-01-16 03:12:43
【问题描述】：

使用 python3.8 我想将 unicode 表示法转换为 python 表示法：

s = 'U+00A0'
result = s.lower() # output  'u+00a0'

我想用\u替换u+：

result = s.lower().replace('u+','\u')

但我得到了错误：

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-1: truncated \uXXXX escape

如何将符号U+00A0 转换为\u00a0？

编辑：

之所以想得到\u00a0，是为了进一步使用encode的方法得到b'\xc2\xa0'。

我的问题：给定以下符号 U+00A0 的字符串，我想将其转换为字节码 b'\xc2\xa0'

【问题讨论】：

【解决方案1】：

你正在为某物的表现与它的价值而苦苦挣扎……

import re
re.sub("u\+([0-9a-f]{4})",lambda m:chr(int(m.group(1),16)),s)

但是对于 u+00a0 这变成 \xa0

但与文字 \u00a0

相同

s = "\u00a0"
print(repr(s))

一旦你将正确的值作为 unicode 字符串，你就可以将它编码为 utf8

s = "\xa0"
print(s.encode('utf8'))
# b'\xc2\xa0'

所以这里只是最终答案

import re
s = "u+00a0"
s2 = re.sub("u\+([0-9a-f]{4})",lambda m:chr(int(m.group(1),16)),s)
s_bytes = s2.encode('utf8') # b'\xc2\xa0'

【讨论】：

【解决方案2】：

你也可以这样用：

>>> s = 'U+00A0'
>>> s = s.replace('U+', '\\u').encode().decode('unicode_escape').encode()
>>> s
b'\xc2\xa0'

【讨论】：

【解决方案3】：

您需要使用第二个\ 转义replace 中的\：

result = s.lower().replace('u+','\\u') 
print(result)

会给你\u00a0

【讨论】：