通过html编辑pdf [关闭]答案

【问题标题】：pdf editing via html [closed]通过html编辑pdf [关闭]
【发布时间】：2013-06-01 17:00:51
【问题描述】：

不确定这是否适合回答这个问题，但我找不到任何其他的建议媒介。

【问题讨论】：

顺便说一句，您是否有理由不考虑在 OCR 之前尝试从 PDF 中提取文本？
这就是让用户选择的原因。但是，它没有解释为什么您不想在 OCR 之前从标记区域中提取文本。
PDF 是一种格式，它可以包含在 PDF 页面某处出现的文本信息。如果您的 PDF 包含该信息，则不需要 OCR，因此您不会收到 OCR 错误。但正如我在第一条评论中提到的，这只是一个旁白。

【解决方案1】：

文本提取。正如 mkl 在 cmets 中提到的，PDF 可能已经包含一层文本（数字创建或预 OCRed），或者它可能是没有文本的纯图像 PDF（扫描或光栅化）。可以尝试现有的文本提取，但我认为它成功的机会很低，因为 PDF 没有用于文本提取目的的坐标信息。换句话说，以编程方式从 PDF 中提取所有现有文本非常容易，但很难从特定区域或区域中提取文本。出于这个原因，即使里面已经存在文本，OCR 也经常使用，因为 OCR 返回的文本具有非常详细的位置和区域信息，可以映射到图像坐标。

PDF 区域突出显示。我相信您要么必须重新构建一个突出显示某些区域的新 PDF，要么构建您自己的类似 PDF 的查看器，它将使图像和坐标以及文本和突出显示的区域变得有趣。我会选择创建您自己的查看器的第二种选择，因为您对功能和 UI 有额外的控制。您的查看器可以将 PDF 作为输入并生成修改后的 PDF 作为输出，但是当您使用该文档时，它不一定是 PDF，即使它在用户的角度看起来可能像 PDF，但增加了交互功能。

【讨论】：