【发布时间】:2015-09-06 17:41:51
【问题描述】:
注意:我对编码/解码知之甚少,但在我遇到这个问题后,这些词现在对我来说已经完全是行话了。
问题:
我在这里有点困惑。我正在玩编码/解码图像,将图像存储为 django 模型中的TextField,环顾 Stack-Overflow,我发现我可以从ascii 解码图像(我认为还是二进制?随便open('file', 'wb')用作编码。我假设默认的ascii) 为latin1 并将其存储在数据库中没有问题。
问题来自于从latin1 解码数据创建图像。尝试写入文件句柄时,我收到 UnicodeEncodeError 说 ascii 编码失败。
我认为问题在于将文件作为二进制数据 (rb) 打开时,它不是正确的 asciiencoding,因为它包含二进制数据。然后我将二进制数据解码为latin1,但是当转换回ascii(尝试写入文件时自动编码)时,由于某些未知原因,它失败了。
我的猜测是,当解码为latin1 时,原始二进制数据会转换为其他内容,然后在尝试编码回ascii 时,它无法识别曾经是原始二进制数据的内容。 (尽管原始数据和解码数据具有相同的长度)。
或者问题不在于对latin1 的解码,而是我试图对二进制数据进行ascii 编码。在这种情况下,我将如何编码 latin1
数据返回到图像。
我知道这很令人困惑,但我对这一切都感到困惑,所以我无法很好地解释它。如果有人能回答这个问题,那可能是谜语大师。
一些可视化的代码:
>>> image_handle = open('test_image.jpg', 'rb')
>>>
>>> raw_image_data = image_handle.read()
>>> latin_image_data = raw_image_data.decode('latin1')
>>>
>>>
>>> # The raw data can't be processed by django
... # but in `latin1` it works
>>>
>>> # Analysis of the data
>>>
>>> type(raw_image_data), len(raw_image_data)
(<type 'str'>, 2383864)
>>>
>>> type(latin_image_data), len(latin_image_data)
(<type 'unicode'>, 2383864)
>>>
>>> len(raw_image_data) == len(latin_image_data)
True
>>>
>>>
>>> # How to write back to as a file?
>>>
>>> copy_image_handle = open('new_test_image.jpg', 'wb')
>>>
>>> copy_image_handle.write(raw_image_data)
>>> copy_image_handle.close()
>>>
>>>
>>> copy_image_handle = open('new_test_image.jpg', 'wb')
>>>
>>> copy_image_handle.write(latin_image_data)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
>>>
>>>
>>> latin_image_data.encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
>>>
>>>
>>> latin_image_data.decode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)
【问题讨论】:
-
我会先在维基百科上查找 jpg,然后再查找纯文本文件。图像文件不会有任何可以编码为 ascii 的纯文本数据。它们只是不同类型的数据,苹果和橘子,纯文本文件和二进制文件
-
所以我可以从 ascii 解码图像数据,但不能返回它?这意味着这是一种单向转换?
-
等等,当打开一个二进制文件时,它的编码是什么?我知道python默认为ascii,但这是原始数据正确吗?妈的,我过不了这个。
-
二进制文件没有文本编码。格式可能是一个更好的术语。 jpg 中的二进制数据与任何类型的文本编码都没有关系。您可以尝试将二进制文件作为文本文件读取。 Python 将读取文件并显示 unicode 字符,但它实际上只是乱码。要打开二进制文件,您需要准备好处理文件格式的程序。 Microsoft Word 文本文档被视为二进制文件,因为它们添加了额外的格式,并且您需要专门使用 Word 打开文件。可以使用记事本等通用文本编辑器读取文本文件。
-
啊,有道理。没有编码是完美的答案。
标签: python image encoding character-encoding