【问题标题】:How to add hidden ocr Text in PDF如何在 PDF 中添加隐藏的 ocr 文本
【发布时间】:2011-11-11 04:21:35
【问题描述】:

目前我正在研究 Puma.NET 并将扫描的多页 tif 转换为可搜索的 pdf 文件。但是,是否有任何开源库提供在此文本 pdf 上生成图像的功能?这样原始 tif 文件以 pdf 格式保存,ocr 文本被隐藏但可供选择或搜索。


感谢安德鲁的快速回复。如果我现有的库无法达到效果,我肯定会给 QuickPDF 一个机会。 :-)

顺便说一句,我刚刚有了一个更好的主意。我想我可以使用 iTextSharp 做到这一点。但是,作为 iTextSharp 的新手,我有 2 个问题。

1) 如何在pdf中添加不同大小的页面? 2) 如何使用 SetAbsolutePosition 或任何其他功能在特定页面上添加图像层?

如果有人可以为我提供上述问题的 iTextSharp 代码,那就太好了!

【问题讨论】:

    标签: pdf ocr tiff


    【解决方案1】:

    您可以使用 Quick PDF Library LITE,它应该有足够的功能来满足您的需求。它不是开源的,但可以免费使用。

    http://www.quickpdflibrary.com/free/lite.php

    您需要使用以下功能

    QP.SetPageSize(); QP.SetOrigin(); QP.AddImageFromFile(); QP.SetTextSize(); QP.DrawTextBox(); QP.SetTextColor(); QP.NewPage();

    您需要在添加图像之前添加白色文本对象。

    安德鲁。

    免责声明:我为此产品做了一些咨询工作。

    【讨论】:

    • 我已经成功地在我的 OCR'd pdf 文本格式中添加了图像层,并且没有保留位置。是否可以使用 Quick PDF LITE 版本?
    • 如果您有每条 OCR 数据的坐标,那么您可以使用 DrawTextBox(x,y,w,h, text, alignment) 非常准确地放置不可见文本。您使用的是哪个 OCR 引擎?如果您使用的是 Tesseract 2.xx,那么您很可能无法访问 OCR 文本的 x、y、w、h 位置。
    • 不幸的是我没有坐标。我想我会暂时保留这个问题,因为目前似乎没有免费的解决方案。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-05-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多