【发布时间】:2014-12-07 08:33:57
【问题描述】:
我有一堆图像要转换为单个 PDF,这些图像主要是文本图像(类似于教科书的扫描图像)。图像文件非常大,我不需要它们提供的分辨率。
首先,作为基础文件,我将其中的 26 个“页面”简单转换为单个 pdf,26 页的总文件大小为 46MB。在页面宽度模式下查看导致原始图像的 16% 的比例。
convert *.png kapittel1.pdf
PDF 页面的质量非常好,只是太大了。因此,我认为由于 16% 的图像足以在我的屏幕上查看整个页面宽度,因此我可以将图像尺寸减小到其原始值的 20%,并且仍然保持相同的图像质量。图像质量明显低于缩小尺寸之前。
convert -resize 20% -quality 100% *.png 20percent.pdf
我相信我需要开始研究过滤器,但在我可能浪费时间使用所有过滤器进行转换然后比较找到我想要使用的过滤器之前,有没有更好的方法来减少大小,保持质量,然后转换为 PDF?我不明白为什么我会在这里丢失像素。
编辑
我尝试使用-scale 而不是-resize,但我真的没有看到输出有什么不同。似乎一旦我低于 40%,我就会开始丢失像素数据。
【问题讨论】:
-
以后尝试以300DPI的灰度1:1扫描文本(如果要OCR的话);这让我得到最好的结果。我发现它总是效果最好,之后使用 Adobe 对图像进行下采样和压缩(通过文档处理),然后使用“Clearscan”对其进行 OCR,这会提高字体的质量。我知道这并不能完全解决 ImageMagick,但它已成为我扫描文档的默认工作流程。
-
感谢您的建议。目前我几乎只有图像文件,最坏的情况是我只需要处理非常大的 PDF 文件(~20x46MB)。我猜你提到的 Adobe 东西需要 Adobe Acrobat,我无法立即访问。虽然我认为与您所说的类似,但我拥有的图像文件质量非常高,所有数据都应该在那里,我只是希望它们更小但质量相同。
-
你是对的。我的意思是杂技演员。虽然还有其他可用的工具,但出于上述原因,我选择了 Acrobat。它没有最好的 OCR 引擎(ABBYY Finereader 拥有最好的),但 Clearscan 功能总是让我赢得了扫描 PDF 的可读性。您使用的是 Linux、OS X 还是 Windows?可能还有其他选择,我可以向您推荐。
-
我现在在 OSX 上,但在寻找适用于此的解决方案时,我对操作系统非常不可知。我刚开始使用 unix imagemagick,因为我认为这是事实上的标准,但是我知道我可以在 Windows 上使用 irfanview 手动执行此操作,然后打印为 PDF。即使我使用的是 Acrobat,您提到的过程有多复杂?如果它肯定会起作用,我可能会为这项工作下载试用版。
-
这很简单。您只需从文档(
Combine Files into PDF)创建一个新的 PDF,然后使用文档处理 -> 优化扫描仪 PDF(等待一段时间以完成),然后使用文本识别 -> 在此文件中并使用设置(确保你使用 Clearscan),就是这样。您可能必须启用工具才能使它们出现(我忘记了我的头顶)。但是您可以使用每个设置来查看会发生什么。虽然您可以将最后两个步骤结合起来,但我发现将它们分开会得到更好的结果。
标签: imagemagick imagemagick-convert