【发布时间】:2018-07-10 14:11:26
【问题描述】:
这里的第一个问题。
所以我使用 ghostscript 命令来缩小我的 pdf,这产生了很好的效果(大小减少了大约 30-40%)。然而,上周的一天,它停止缩小它们,而是返回给我一个大小甚至更重的 pdf(大约 1% 或更少)。因此,我不知道发生了什么,因为该命令以前可以正常工作,并且我能够轻松缩小一些 pdf...
我会注意到,在我的 pdf 文件上使用 gs 时,它总是会返回有关 GlyphLessFont 中缺少某些字形的错误,但我认为这与我的问题无关(尽管如果您可以将我重定向到修复 glyphlessfont 这将是非常感谢)。
这是我使用的命令:
`gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=out.pdf`
这里还有一个正确缩小的 pdf 样本(原始文件大小 4.7mo / 缩小版本 2.9mo)https://nofile.io/f/39Skta4n25R/bulletin1_ocr.pdf
编辑:适用于上述文件的轻型版本:https://nofile.io/f/QOKfG34d5Cg/bulletin1_light.pdf
这是另一个不起作用的 pdf 的输入和输出文件 (输入)https://nofile.io/f/sXsU0Mcv35A/bulletin15_ocr.pdf (通过上面的gs命令输出)https://nofile.io/f/STdJYqqt6Fq/out.pdf
您会注意到输入和输出文件都是 27.6mo,而第一个文件减小了。
我还要补充一点,我已经使用 pdfocr 和 tesseract 引擎对这些 pdf 执行了 OCR,这就是为什么我没有尝试转换为 png 来减小大小,我需要额外的 OCR 层以便我们可以发布我们网站的这些文件,如果可能,我们希望它们更轻。
最终信息:ghostscript -v 是 9.10 (2013-08-30),tesseract 是 3.03,leptonica-1.70 和 pdfocr 是 0.1.4
希望大家帮忙!
EDIT2:在等待答案时,我继续扫描和扫描文档,似乎在通过 pdfocr 传递我的 pdf 后,它像以前使用 ghostscript 一样缩小了。因此,我想知道脚本 pdfocr 是否使用 ghostscript 进行缩小,因为我知道它会在 OCR 化过程中为其他任务调用它。
【问题讨论】:
标签: pdf resize ocr tesseract ghostscript