【发布时间】:2016-06-24 18:17:32
【问题描述】:
我有 1000 多个包含多个页面的 PDF,每个 PDF 都有不同的分辨率(基于用于扫描它们的扫描仪)。我想将 PDF 的每一页转换为 PNG 以将其传递给 Tesseract 进行 OCR。我使用 Imagemagick 转换为 PNG,但必须为所有图像传递一个固定的 DPI 以获得良好的可读输出。有没有办法通过保留 PDF 的分辨率来转换每个 PDF?
例如,如果 1.PDF 的分辨率为 622 × 788,而 2.pdf 的分辨率为 792 × 612,我希望以相同的分辨率进行精确转换,只是格式不同(PNG)。
我现在使用的命令是:
convert -monochrome -density 1200 input.pdf -resize 25% -monochrome -white-threshold 50% -black-threshold -50% output.png
谢谢, 帕夏
【问题讨论】:
-
请添加您用于转换的命令。只有这样,才能获得真正解释某事的答案
-
对不起..用命令更新了帖子
标签: file format imagemagick ocr