【问题标题】:get the details inside PDF Image获取 PDF Image 中的详细信息
【发布时间】:2014-06-26 16:26:02
【问题描述】:

得到了我需要了解所有详细信息的这一系列 PDF。我已经可以使用 iTextsharp 获得一些文本细节,但问题是,一些 PDF 有图像并且该图像包含一些细节。

那么我有可能得到这些图像及其细节吗?作为下面的示例图片,我想得到“头眼”、“身体正方形”和“页脚正方形”这个词。我不需要“绘图”,我需要的是图像中的单词/s。

如果有一些 API/库可以在我的 .Net C# 应用程序中使用,那就太好了。谢谢!

【问题讨论】:

  • 吃了那些图像位图图像,是该图像的书写部分吗?在这种情况下,您必须将 OCR 应用于可以使用 iTextSharp 提取的图像。否则,您应该成功使用 iTextSharp 文本提取功能。

标签: c# .net image pdf itextsharp


【解决方案1】:

如果您要读出的文本在图像上或混合在一起,您可以使用Ghostscript 将PDF 栅格化(将pdf 页面转换为图像),然后使用Tesseract 从部分读取文本那个图片。

由于您想通过 .NET (C#) 执行此操作,因此您可以从此处获取两个组件的 .NET 包装器:

Ghostscript.NEThttp://ghostscriptnet.codeplex.com

tesseract-ocr .net: https://code.google.com/p/tesseractdotnet/

【讨论】:

    猜你喜欢
    • 2012-06-02
    • 2020-10-08
    • 2018-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多