【问题标题】:Unicode characters not rendering with PIL ImageFontUnicode 字符不使用 PIL ImageFont 呈现
【发布时间】:2013-09-10 21:37:45
【问题描述】:

我正在尝试使用绘图字符编写 tiff 图像,但所有有问题的字符都显示为:

框画字符(例如“┌─┐│└┘╞═╡╤╧╘╛”)直接粘贴到源代码中,保存到文本文件时它们正确显示,但我没有了解他们为什么没有出现在图片上。

这是我用来绘制图像的代码示例:

# coding=utf-8
text = "┌─┐│└┘╞═╡╤╧╘╛"
from PIL import Image, ImageDraw, ImageFont, TiffImagePlugin
img = Image.new("1",(1200,1600),1)
font = ImageFont.truetype("cour.ttf",14,encoding="unic")
draw = ImageDraw.Draw(img)
draw.text((40,0), text, font=font, fill=0)
img.save("imagefile.tif","TIFF")

我在 Windows 7 上使用 python 版本 2.7.2。

【问题讨论】:

    标签: python unicode python-imaging-library


    【解决方案1】:

    我不确定哪一个是你的问题,因为有多种方法可以解决这个问题,所以我将介绍所有可能性:

    首先,确保文件实际保存为 UTF-8。默认情况下,记事本和许多其他编辑器将以您的系统编码保存文件,这可能类似于 cp1252。测试“看起来正确”和“当脚本将这些字符写入文件并且我在记事本中打开该文件时,它看起来正确”并不能告诉您任何信息;显然,如果你保存一个 cp1252 文件并以 cp1252 格式打开它,它看起来是正确的。

    仅仅在顶部添加“coding=utf-8”并不会神奇地改变文件的保存方式(除了一些智能编辑器,如 emacs)。它只是告诉 Python“这个源文件是 UTF-8”,即使它真的是别的东西。因此,Python 最终将您的 cp1252 解释为 UTF-8 并获得 mojibake,就像用 a-with-circumflex 代替画线字符。

    您通常最好使用显式反斜杠转义符,例如 \u250c 而不是 ┌─,尤其是当您甚至不知道如何判断文件是否为 UTF-8 时,更不用说如何修复它了。

    其次,您几乎不想将非 ASCII 字符放入 str 文字中;除非您有充分的理由不这样做,否则请使用 unicode 文字。

    最重要的是,如果您将draw.text 传递给str,PIL 将使用您的默认字符集对其进行解码——这也可能不是 UTF-8。因此,即使到目前为止所有其他内容都是正确的,您的代码也会移交一些 UTF-8 以解析为 cp1252,所以再次mojibake。使用 unicode 文字可以完全避免这个问题;否则,您需要通过text.decode('utf-8')

    综合起来:

    text = u"\u250c\u2500\u2510\u2502\u2514\u2518\u255e\u2550\u2561\u2564\u2567\u2558\u255b"
    

    现在编码声明和用于保存文件的实际编码无关紧要,因为文件是纯 ASCII。

    但您可能仍然会得到缺少字符的矩形,因为许多字体没有画线字符。我不知道你的cour.ttf 是什么,但我在我的系统上发现了两种Courier TTF 字体,一种来自旧的Mac OS,一种来自Windows XP,但都没有。如果这是您的问题,您显然需要使用不同的字体。

    另一种可能性:如果您仍然通过上述修复获得 mojibake,cour.ttf 可能不是 Unicode 排序的字体文件,而是较旧的 TTF 排序之一。字体查看器应该会显示文件的 TTF 顺序。 (我很确定 Windows 自带一个,但我不知道它在 Windows 7 中的位置或如何使用它。)然后你需要在加载时传递正确的东西来代替 'unic' 作为 encoding字体。但是大多数不是unicsymb 的字体可能无论如何都没有画线字符。

    【讨论】:

    • 问题在于需要以 unicode 格式发送绘图。将 u 放在引用的文本前面解决了问题。
    • 直接将字符粘贴到源文件中没有问题。我认为这样编码要容易得多。虽然我今天才发现我必须更改 Notepad++ 中的默认设置才能创建 UTF-8 格式的新文件,然后它才能让我粘贴它。
    • @CCKx: 是的,只要你知道如何确保你的编辑器使用 UTF-8,以及如何检查文件以查看它是否真的是 UTF-8,并且只使用 @ 987654336@ 文字,在源代码中使用非 ASCII 字符是安全的。 (仍然值得了解如何使用反斜杠转义进行调试,并在遇到 mojibake 问题时尝试它以排除源编码问题。)
    猜你喜欢
    • 2015-10-14
    • 1970-01-01
    • 2013-09-27
    • 1970-01-01
    • 2016-09-13
    • 2016-04-27
    • 2017-05-12
    • 1970-01-01
    • 2015-07-17
    相关资源
    最近更新 更多