【发布时间】:2014-06-12 12:22:01
【问题描述】:
我想知道 PDF 是否是使用 OCR 从扫描文档创建的。
为了使扫描文档中的文本可选择,我猜相同的文本是使用透明颜色、特殊字体编写的......
我正在使用 pdfbox,我查看了字体、颜色和许多其他属性,但没有发现任何特别之处。
【问题讨论】:
-
这取决于 OCR 数据的实际嵌入。人们经常看到使用“不可见”的渲染模式或简单地首先绘制文本然后显示覆盖文字的图像的方法。
-
您不应该将分辨率添加到您的问题文本中,而应该将其作为答案。
-
我改成了答案