【问题标题】:pdf editing via html [closed]通过html编辑pdf [关闭]
【发布时间】:2013-06-01 17:00:51
【问题描述】:

不确定这是否适合回答这个问题,但我找不到任何其他的建议媒介。

【问题讨论】:

  • 顺便说一句,您是否有理由不考虑在 OCR 之前尝试从 PDF 中提取文本?
  • 这就是让用户选择的原因。但是,它没有解释为什么您不想在 OCR 之前从标记区域中提取文本。
  • PDF 是一种格式,它可以包含在 PDF 页面某处出现的文本信息。如果您的 PDF 包含该信息,则不需要 OCR,因此您不会收到 OCR 错误。但正如我在第一条评论中提到的,这只是一个旁白。

标签: android pdf annotations itext ocr


【解决方案1】:

文本提取。正如 mkl 在 cmets 中提到的,PDF 可能已经包含一层文本(数字创建或预 OCRed),或者它可能是没有文本的纯图像 PDF(扫描或光栅化)。可以尝试现有的文本提取,但我认为它成功的机会很低,因为 PDF 没有用于文本提取目的的坐标信息。换句话说,以编程方式从 PDF 中提取所有现有文本非常容易,但很难从特定区域或区域中提取文本。出于这个原因,即使里面已经存在文本,OCR 也经常使用,因为 OCR 返回的文本具有非常详细的位置和区域信息,可以映射到图像坐标。

PDF 区域突出显示。我相信您要么必须重新构建一个突出显示某些区域的新 PDF,要么构建您自己的类似 PDF 的查看器,它将使图像和坐标以及文本和突出显示的区域变得有趣。我会选择创建您自己的查看器的第二种选择,因为您对功能和 UI 有额外的控制。您的查看器可以将 PDF 作为输入并生成修改后的 PDF 作为输出,但是当您使用该文档时,它不一定是 PDF,即使它在用户的角度看起来可能像 PDF,但增加了交互功能。

【讨论】:

    猜你喜欢
    • 2010-09-05
    • 1970-01-01
    • 1970-01-01
    • 2012-03-13
    • 2010-09-17
    • 2018-06-02
    相关资源
    最近更新 更多