【发布时间】:2012-09-07 13:33:46
【问题描述】:
我有一个包含一些表格数据的 PDF 文件。
http://dl.dropbox.com/u/44235928/sample_rotate-0.pdf
我必须从中提取表格数据。我尝试了以下但没有成功:
- 选择文本并将其粘贴到记事本/Excel 工作表中。 (我收到垃圾字符)
- 用于从 Acrobat Reader 中另存为文本。它还提供垃圾字符,而不是实际文本。
- 尝试使用 ApachePDFBox 命令行实用程序从 PDF 中提取文本。它还提供垃圾字符而不是真实文本。
- 最后我正在尝试 OCR 解决方案。我正在使用 ImageMagick 将 pdf 文件转换为 .tif 图像,并通过 tesseract OCR 处理这些图像。
OCR 解决方案虽然不是很准确(大约 80% 的单词匹配)。
我尝试更改从 PDF 创建的图像的密度和几何形状,以便从 tesseract OCR 获得更好的结果。
convert -rotate 90 -geometry 10000 -depth 8 -density 800 sample.pdf img_800_10000.tif;
tesseract img_800_10000.tif img_800_10000.tif nobatch letters;
我不确定哪种图像(密度、几何形状、单色、锐化边界等)最适合 OCR。
请建议从 PDF 文件生成图像的最佳参数(密度、几何形状、深度等),以便提高 tesseract 精度。
我也对其他(非 ocr)解决方案持开放态度。
【问题讨论】:
标签: linux pdf imagemagick ocr tesseract