【发布时间】:2015-06-13 12:21:49
【问题描述】:
在我拥有的 RTF 文件中(字符编码 ansicp1251)
这些转义的编码字符出现:
\'a1\'dd
当我在 RTF 编辑器中打开它时,它会正确打开为 unicode 符号 U+2265 ≥。在 RTF 的文档中,它将这些转义字符列为十六进制代码。但是,将其列为hex(A1) + hex(DD) 是不正确的,因为它们代表两个不同的字符,而我只想要unicode U+2265 ≥ 的一个字符。
我在 EUC-CN = Chinese Windows = Mac OS Chinese Simplified Encoding 字符集中找到了 A1DD 的匹配项,它可以正确识别 unicode 符号 U+2265。
但是,此编码未在文件中的任何位置列出,我不确定我的 RTF 查看器如何知道我不想要 hex(A1) + hex(DD) 而我确实想要这个双字节字符。
我在 Google 上进行了广泛的搜索,但结果很短;还有很多其他人对此进行了报告,但我还没有看到解决方案。我想用 Perl/Python 等编写一个脚本来处理这种转换,而不是依赖可以读/写 RTF 格式的 Windows 工具。
【问题讨论】:
-
很难看到没有完整文件的情况。你可能忽略了其中的某些内容。
标签: python perl unicode rtf utf