【发布时间】:2015-08-22 00:45:18
【问题描述】:
PDF 内容以多种方式保存,“(abc) Tj”、“() Tj”或“\u065”。
我想知道是否有办法将PDF代码转换为一种类型,无论是直接文本“(abc)Tj”,还是十六进制“()Tj”,还是八进制“\ u065”。
我认为如果将 PDF 转换并编码为一种类型,将更容易分析内容。
是否可以使用 Ghostscript 或其他东西来做到这一点?谢谢
【问题讨论】:
-
你第二个“几种方式”的例子是错误的,应该是
<00350035> Tj。将输入格式转换为它们所代表的确切字节的规则在正式规范中进行了概述,实施起来并不难。
标签: pdf pdf-generation ghostscript pdf-conversion pdf-parsing