如何使用 Python protobuf 读取二进制 C++ protobuf 数据？答案

【问题标题】：How do I read binary C++ protobuf data using Python protobuf?如何使用 Python protobuf 读取二进制 C++ protobuf 数据？
【发布时间】：2009-12-07 14:07:06
【问题描述】：

Google protobuf 的 Python 版本只给我们：

SerializeAsString()

正如 C++ 版本为我们提供的那样：

SerializeToArray(...)
SerializeAsString()

我们正在以二进制格式写入我们的 C++ 文件，我们希望保持这种方式。也就是说，有没有办法将二进制数据读入 Python 并将其解析为字符串？

~~这是正确的做法吗？~~

binary = get_binary_data()
binary_size = get_binary_size()

string = None
for i in range(len(binary_size)):
   string += i

message = new MyMessage()
message.ParseFromString(string)

更新：

这是一个新的例子，一个问题：

message_length = 512

file = open('foobars.bin', 'rb')

eof = False
while not eof:

    data = file.read(message_length)
    eof = not data

    if not eof:
        foo_bar = FooBar()
        foo_bar.ParseFromString(data)

当我们到达foo_bar.ParseFromString(data) 行时，我收到此错误：

Exception Type: DecodeError
Exception Value: Too many bytes when decoding varint.

更新 2：

事实证明，二进制数据上的填充正在抛出 protobuf；正如消息所暗示的那样，发送了太多字节（在这种情况下，它指的是填充）。

此填充来自在固定长度缓冲区上使用 C++ protobuf 函数 SerializeToArray。为了消除这种情况，我使用了这个临时代码：

message_length = 512

file = open('foobars.bin', 'rb')

eof = False
while not eof:

    data = file.read(message_length)
    eof = not data

    string = ''
    for i in range(0, len(data)):
        byte = data[i]
        if byte != '\xcc': # yuck!
            string += data[i]

    if not eof:
        foo_bar = FooBar()
        foo_bar.ParseFromString(string)

我认为这里存在设计缺陷。我将重新实现我的 C++ 代码，以便将可变长度数组写入二进制文件。正如 protobuf 文档所建议的那样，我会在每条消息前面加上它的二进制大小，以便在我用 Python 打开文件时知道要读取多少内容。

【问题讨论】：

我不太确定你想用你的循环做什么，但你会用它提出一个TypeError。您将None 分配给名称string，然后尝试向其添加一系列ints。在 python 中，字符串是一个字节序列，因此任何二进制数据在字符串中都应该是安全的。您能否更清楚地解释 SerializeAsString 对您的数据做错了什么？

标签： c++ python protocol-buffers

【解决方案1】：

我不是 Python 专家，但您可以将 file.read() 操作的结果传递给 message.ParseFromString(...)，而无需构建新的字符串类型或其他任何东西。

【讨论】：

【解决方案2】：

Python 字符串可以包含任何字符，即它们能够直接保存“二进制”数据。应该不需要从字符串转换为“二进制”。

【讨论】：

这对 Python 3 来说不再适用了。