在python中字符串到wstring答案

【问题标题】：string to wstring in python在python中字符串到wstring
【发布时间】：2016-08-16 20:09:38
【问题描述】：

我有一个 udp 套接字，它接收到不同长度的数据报。数据报的第一个指定它将接收什么类型的数据，例如 64-means bool false、65-means bool true、66-means sint、67-means int 等等。由于大多数数据类型都知道长度，但是当涉及到字符串和 wstring 时，第一个字节表示 85 表示字符串，接下来的 2 个字节表示字符串长度，然后是实际字符串。对于 wstring 85，接下来的 2 个字节表示 wstring 长度，然后是实际 wstring。

为了解析上述类型的 wstring 格式 b'U\x00\x07\x00C\x00o\x00u\x00p\x00o\x00n\x001' 我使用了以下代码

data = str(rawdata[3:]).split("\\x00")
data = "".join(data[1:])
data = "".join(data[:-1])

这是正确的还是其他简单的方法？

当我收到数据报时，我也需要发送数据报。但我不知道如何创建数据报，因为 socket.sendto 需要bytes。如果我尝试将字符串转换为utf-16 格式，它将转换为 wstring。如果是这样，我将如何将其余信息添加到bytes

从上面的数据报信息U-85是wstring，\x00\x07-wstring数据的7个长度，\x00C\x00o\x00u\x00p\x00o\x00n\x001-是实际的字符串Coupon1

【问题讨论】：

标签： python string sockets wstring

【解决方案1】：

完整的答案取决于您打算如何处理结果数据。用'\x00' 分割字符串（假设这就是你的意思？不确定我理解为什么那里有两个反斜杠）并没有真正的意义。首先使用 wstring 类型的原因是能够表示不是普通的旧 8 位（实际上是 7 位）ascii 的字符。如果您有任何不是标准罗马字符的字符，它们很可能有一个零字节以外的字符分隔字符，在这种情况下，您的 split 结果将毫无意义。

警告：由于您提到 sendto 需要字节，我假设您使用的是 python3。 python2下细节会略有不同。

无论如何，如果我理解您的意思，“utf-16-be”编解码器可能就是您正在寻找的。（“utf-16”编解码器在您可能不想要的编码字符串的开头放置一个“字节顺序标记”；“utf-16-be”只是将 big-endian 16 位字符放入字节中字符串。）解码可以这样执行：

rawdata = b'U\x00\x07\x00C\x00o\x00u\x00p\x00o\x00n\x001'

dtype = rawdata[0]
if dtype == 85:        # wstring
    dlen = ord(rawdata[1:3].decode('utf-16-be'))
    data = rawdata[3: (dlen * 2) + 3]
    dstring = data.decode('utf-16-be')

这会将dstring 保留为python unicode 字符串。在 python3 中，所有字符串都是 unicode。这样你就完成了。

可以这样编码：

tosend = 'Coupon1'
snd_data = bytearray([85])  # wstring indicator
snd_data += bytearray([(len(tosend) >> 8), (len(tosend) & 0xff)])
snd_data += tosend.encode('utf-16-be')

【讨论】：