Python 从二进制文件中读取“20”而不是“00”答案

【问题标题】：Python reads "20" instead of "00" from binary filePython 从二进制文件中读取“20”而不是“00”
【发布时间】：2020-12-29 12:24:19
【问题描述】：

我正在编写一个代码，用于读取二进制文件并将其数据的十六进制表示形式打印为 csv，使用 NULL 值作为分隔符。在二进制/十六进制查看器中查看文件时，它会将此序列显示为文件的一部分：

41 73 73 65 6d 62 6c 79 c8 2d 01 00 04 00 00 00 07 00 00 00 00

但是，使用这部分代码读取文件：

with open(file_in, "rb") as f:
    while (byte := f.read(1)):
        h_value = hex(ord(byte))
        h_value = ("0" + h_value[2:])[-2:]
        #print(byte)
        #print(h_value)
        if h_value != '00':
            data_read.append(h_value)
        else:
            data_read.append(h_value)
            if data_read:
                with open(file_out, 'a', newline = '') as c:
                    w = csv.writer(c)
                    w.writerow(data_read)
            data_read = []

在那个部分给我这个：

41,73,73,65,6d,62,6c,79,c3,88,2d,01,20,04,20,20,20,07,20,20,20,20

这是相关的，因为文件中其他地方有实际的“20”值作为数据。使用“print(byte)”和“print(h_value)”分别返回b' '和20，这让我认为是Python 读取文件错误，而不仅仅是转换的输出.我可以做些什么来在整个过程中保留这些 NULL 值吗？

编辑 1：附加信息，这是使用 IDLE 运行 Python 3.8.2。不知道编译器是否会对此有所作为，但我将看看 Visual Studio 是否会给我不同的结果。二进制查看器简称为 Binary Viewer，版本 6.17。

【问题讨论】：

看起来您的数据在某些时候被几个额外的处理层破坏了，包括空值到空格的转换和尝试 UTF-8 编码（注意 c8 字节发生了什么） .我们不知道这些额外的处理层发生在哪里，也不知道您需要更改什么来阻止它们发生。
@user2357112supportsMonica 在你指出之前我什至没有注意到 c8 字节的变化，但看起来我也找到了地址的解决方案。

标签： python null hex

【解决方案1】：

根据 cmets 和 paxdiablo 的回答中的信息，我认为文件本身一定有问题，因为无论如何问题不应该出在 Python 上。我再次在二进制查看器中打开它并将其导出为新的 .BIN 文件。新文件按照它应该的方式读取，所以看起来就是这样。

【讨论】：

【解决方案2】：

Python 的读取文件和 CSV 创建都没有问题，以下程序证明了这一点：

import os, csv

os.system("od -xcb qq.in") # Show file as byte dump.

data_read = []
with open("qq.in", "rb") as f:
    byte = f.read(1)
    while (byte):
        h_value = hex(ord(byte))
        h_value = ("0" + h_value[2:])[-2:]
        data_read.append(h_value)
        print(ord(byte), h_value) # Check individual bytes.
        byte = f.read(1)

print(data_read)
with open("file_out.csv", 'w') as c:
    w = csv.writer(c)
    w.writerow(data_read)
os.system("cat file_out.csv") # Show final CSV output.

该程序的输出是：

0000000    7341    6573    626d    796c    2dc8    0001    0004    0000
          A   s   s   e   m   b   l   y 310   - 001  \0 004  \0  \0  \0
        101 163 163 145 155 142 154 171 310 055 001 000 004 000 000 000
0000020    0007    0000    0000
         \a  \0  \0  \0  \0
        007 000 000 000 000
0000025
(65, '41')
(115, '73')
(115, '73')
(101, '65')
(109, '6d')
(98, '62')
(108, '6c')
(121, '79')
(200, 'c8')
(45, '2d')
(1, '01')
(0, '00')
(4, '04')
(0, '00')
(0, '00')
(0, '00')
(7, '07')
(0, '00')
(0, '00')
(0, '00')
(0, '00')
['41', '73', '73', '65', '6d', '62', '6c', '79', 'c8', '2d', '01', '00', '04', '00', '00', '00', '07', '00', '00', '00', '00']
41,73,73,65,6d,62,6c,79,c8,2d,01,00,04,00,00,00,07,00,00,00,00

因此，我将开始仔细查看您的输入文件，这可能是问题所在。

特别是因为您的输入似乎有另一个变化，c8 字节已更改为 c3 88 - 这是一个 Unicode 编码转换。

从this answer 可以看出，0xc8 在两字节的 UTF-8 部分中：

Range              Encoding  Binary value
-----------------  --------  --------------------------
U+000080-U+0007ff  110yyyxx  00000yyy xxxxxxxx
                   10xxxxxx

代码点c8 是位序列000 1100 1000，因此将转换为UTF-8 为1100 0011 1000 1000 或c3 88。

【讨论】：