【问题标题】:How to cast a string to bytes without encoding如何在不编码的情况下将字符串转换为字节
【发布时间】:2017-03-14 19:37:17
【问题描述】:

我有一堆二进制数据通过某个 C 接口(不受我控制)的 char* 传入 python,所以我有一个任意二进制数据字符串(通常是字节数组)。我想将其转换为字节数组以简化与其他 python 函数的使用,但我似乎无法弄清楚如何。

不起作用的示例:

data = rawdatastr.encode() 这假定为“utf-8”并破坏数据 == 错误

data = rawdatastr.encode('ascii','ignore') 去除超过 127 个字符 == 不好

data = rawdatastr.encode('latin1') 不确定——这是迄今为止最接近的,但我没有证据表明它适用于所有字节。

data = array.array('B', [x for x in map(ord,data)]).tobytes() 这行得通,但做一些简单的事情似乎需要做很多工作。有没有更简单的?

我想我需要编写自己的身份编码,只传递字节(我认为 latin1 这样做是基于一些阅读但到目前为止还没有证据)。

【问题讨论】:

  • str 还是bytearray?如果它是str,它已经以某种方式被解码。如果它是一个字节数组,它已经是字节等价的(你可以通过bytes(bytearray_variable)使它实际上是bytes类型)
  • 它是一个字符串而不是一个字节数组。据我所知,它还没有被解码。如果您“打印”它,它将正确地将字节带入 '\x00\x01' 等..
  • 必须经过某种解码,str不代表二进制数据。不管怎样,我已经在下面回答了。

标签: python-3.x encoding character-encoding


【解决方案1】:

虽然我怀疑其他东西正在为您解码您的数据(C 中的 char* 通常最好表示为 bytes,尤其是二进制数据时):

latin1 编解码器可以往返每个字节。您可以使用以下短程序验证这一点:

>>> s = ''.join(chr(i) for i in range(0x100))
>>> s
'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0¡¢£¤¥¦§¨©ª«¬\xad®¯°±²³´µ¶·¸¹º»¼½¾¿ÀÁÂÃÄÅÆÇÈÉÊËÌÍÎÏÐÑÒÓÔÕÖרÙÚÛÜÝÞßàáâãäåæçèéêëìíîïðñòóôõö÷øùúûüýþÿ'
>>> s2 = s.encode('latin1').decode('latin1')
>>> s2 == s
True
>>> sb = bytes(range(0x100))
>>> sb
b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e\x0f\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f !"#$%&\'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~\x7f\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff'
>>> sb == s.encode('latin1')
True

【讨论】:

  • 谢谢!我只是在开发一个类似的程序来验证每个字节。是的,我认为 latin1 可以用作身份编码,我认为这证明了这一点。
  • 在尝试了一些重要的例子之后,事情最终被打破了。我认为你是对的,一些解码正在发生,因为然后我尝试了 latin1 我得到了错误:“'latin-1'编解码器无法对位置 0-73 中的字符进行编码:序数不在范围内(256)”这意味着我认为数据确实被解码为 256 之外的一些代码点。
  • 这个答案非常有用,因为在互联网上的其他地方,我只能找到破坏数据的答案。 +1
  • 很好的答案,包括测试用例!顺便说一句:其他人提到使用 iso-8859-15latin1 相同。
  • range(0x100) 是完整集所必需的。但是经过测试,它可以工作。
【解决方案2】:

刚才我遇到了同样的问题。这是我想出的:

import struct

def rawbytes(s):
    """Convert a string to raw bytes without encoding"""
    outlist = []
    for cp in s:
        num = ord(cp)
        if num < 255:
            outlist.append(struct.pack('B', num))
        elif num < 65535:
            outlist.append(struct.pack('>H', num))
        else:
            b = (num & 0xFF0000) >> 16
            H = num & 0xFFFF
            outlist.append(struct.pack('>bH', b, H))
    return b''.join(outlist)

一些例子:

In [34]: rawbytes('this is a test')
Out[34]: b'this is a test'

In [35]: rawbytes('\udc80\udcdf\udcff\udcff\udcff\x7f')
Out[35]: b'\xdc\x80\xdc\xdf\xdc\xff\xdc\xff\xdc\xff\x7f'

【讨论】:

  • 对于这个(“字符串”)值:[\xc8\x07K\x03],我得到:“struct.error: byte format requires -128
  • @nrathaus 您发现了一个错误:struct.pack('b', num) 应该是 struct.pack('B', num)。现在已经修好了。查看更新的答案。
【解决方案3】:

我遇到了一个 Python2 脚本的问题,该脚本将通过 xmlrpc 与 Python3 脚本对话。问题是我想在 Python3 端以“wb”模式打开一个文件。传入的字符串在通过 Python3 发送时是 bytes 类型,但在通过 Python2 发送时是 str 类型。我发现使用.encode 只会根据传入的数据不可靠地工作。

这是对我有用的解决方案:

incoming_data = bytes([ord(char) for char in incoming_data])

【讨论】:

    【解决方案4】:

    你可以直接encode('iso-8859-15')

    >>> message = 'test 112 hello: what?!'
    >>> message = message.encode('iso-8859-15')
    >>> message 
    b'test 112 hello: what?!'
    

    【讨论】:

    • 我对此进行了测试。不幸的是,它不起作用。您将在下面使用 range() 看到一个答案,该答案演示了如何对此进行测试。
    • "没有编码"
    【解决方案5】:

    使用base64:

    >>> import base64
    >>> encoded = base64.b64encode(b'data to be encoded')
    >>> encoded
    b'ZGF0YSB0byBiZSBlbmNvZGVk'
    >>> data = base64.b64decode(encoded)
    >>> data
    b'data to be encoded'
    

    encoded 变量仍然是字节类型,但现在它只有可打印的 ASCII 字符,因此您可以使用 'uts-8' 对其进行编码。

    >>>str_data = encoded.decode('utf-8')
    >>>str_data
    'ZGF0YSB0byBiZSBlbmNvZGVk'
    >>>encoded_str = str_data.encode('utf-8')
    >>>encoded_str
     b'ZGF0YSB0byBiZSBlbmNvZGVk'
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-01-21
      • 1970-01-01
      • 2017-11-02
      • 2019-06-04
      • 1970-01-01
      相关资源
      最近更新 更多