【发布时间】:2019-03-15 20:50:22
【问题描述】:
我正在尝试解码 pdf 以从中获取文本,但我在使用差异数组时遇到了问题。我从正在处理的文档中提取的差异数组采用以下格式:
'BaseEncoding': 'WinAnsiEncoding', 'Differences': [1, 'g39', 'g38', 'g51', ';#23#23#23', ';#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23', 'g40', 'g79', 'g72', 'g70', 'g87', 'g85', 'g82', 'g81', 'g76', 'g54'...]
我找到了有关如何使用其他格式的差异表的解释,例如:
/Differences [
24 /breve/caron/circumflex/dotaccent/hungarumlaut/ogonek/ring/tilde
39 /quotesingle
96 /grave
128 /bullet/dagger/daggerdbl/ellipsis...
]
数字代码告诉你要使用什么字符,但我似乎找不到关于如何使用第一种差异表的解释。
编辑:这是file
【问题讨论】:
-
请分享您在其中找到第一个语法的 pdf。因为它显然不是pdf语法。
-
从技术上讲,您必须使用 ToUnicode cmap 在第一种情况下提取文本。如果它不存在,您可以简单地剪切前面的“g”并将数字用作字符代码,但我不能保证结果有效。这不是标准的,它只是一个 hack。