python解压小端答案

【问题标题】：python unpack little endianpython解压小端
【发布时间】：2012-08-28 16:25:16
【问题描述】：

我正在尝试使用 Python 读取二进制文件。该文件处于 LSB 模式。我导入结构模块并像这样使用解包：

f=open(sys.argv[1],'rb')
contents= unpack('<I',f.read(4))[0]
print contents
f.close()

文件中的数据在LSB模式下为0XC0000500，实际值为0X000500C0。所以你可以看到 LSB 模式的最小尺寸是每字节。

不过，我用的是Mac机器，可能是因为我的gcc或者机器的版本（我不确定。我只是看了http://docs.python.org/library/struct.html关于sizeof和sys.bitorder的），结果来自上面的代码是 X0500C000，所以 LSB 模式的大小是 2Bytes。

我应该如何解决这个问题？

无论这个问题是否得到回答，我都会继续挖掘，如果我有任何东西，我会更新。

ps：数据文件是 32 位机器的 ELF 文件。

pps：由于我要读取大量数据，而且这是读取中的普遍问题，所以手动方式对我来说不是最好的。问题仍然有待解答。

ppps: 标准大小（16 位）” 现在我读到了这个......

【问题讨论】：

可以包含repr(f.read(4)) 和十进制整数的预期输出？
文件中的数据按物理顺序是什么——即字节0、字节1等？
是的，例如，如果实际值为OXABCD，则文件存储DCBA。
dcba 到 0xabcd 似乎不寻常（请参阅updated answer。您能否在问题中包含repr(f.read(4))（不要键入它只是复制粘贴您看到的任何内容）和预期的输出作为十进制整数（作为123，而不是0x7b，以避免对字节顺序产生任何混淆）？
对不起，我造成了混淆。对于值 DCBA，它应该是 0x0A0B0C0D。对于 repr，它显示了我在问题描述中使用的原始文件的 '\x00\xc0\x00\x05'。

标签： python

【解决方案1】：

如果实际值为OXABCD，则文件存储DCBA。

通常字节顺序定义字节顺序，而不是字节内的各个位。 "\xDC\xBA" 是两个字节（16 位）。如果交换字节；所有可能的结果是：

>>> "0X%04X" % struct.unpack("<H", binascii.unhexlify("DCBA"))
'0XBADC'
>>> "0X%04X" % struct.unpack(">H", binascii.unhexlify("DCBA"))
'0XDCBA'

0xabcd 在 little/big-endian 格式中的外观如下：

>>> struct.pack('<H', 0xabcd)
'\xcd\xab'
>>> struct.pack('>H', 0xabcd)
'\xab\xcd'

要从"\xDC\xBA" 获取0XABCD，您需要交换半字节（4 位）。这似乎很不寻常。

因为我要读取大量数据

您可以使用array module 一次读取多个值。它使用与struct 模块相同的类型格式。

如果您将<> 与struct 模块一起使用，则标准尺寸是固定的并且独立于任何东西。 Standard size depends only on the format character。特别是'<H' 始终为 2 个字节（16 位），'<I' 始终为 4 个字节（32 位）。只有 @ 前缀使用原生大小。

旧答案

^{把它留在这里让 cmets 有意义}

您可以将其读取为 2 字节值并手动转换为 int：

>>> hi, lo = struct.unpack("<HH", "\x05\x00\xC0\x00")
>>> n = (hi << 16) | lo
>>> n
327872
>>> "0X%08X" % n
'0X000500C0'

【讨论】：

谢谢！它有助于。但是我的问题的根本原因是什么？如果我使用不同的机器和 Gcc 版本，大小会改变吗？这种手动方式是唯一的方法吗？有什么办法可以配置我的 python 或设置一些东西来解决这个问题？再次感谢。
@user1595754: edit 您的问题并添加数据的来源。上述代码的结果不依赖于操作系统、gcc等。要使用本机格式，您可以尝试'@I'。
谢谢。给我一点时间试试。
如果我错了，请纠正我，但对我来说，如果它是 4 字节的大端，它不应该用 2 字节的 2 大端来解压缩它。字节序是全场，而不是半场。