获取 PDF Image 中的详细信息答案

【问题标题】：get the details inside PDF Image获取 PDF Image 中的详细信息
【发布时间】：2014-06-26 16:26:02
【问题描述】：

得到了我需要了解所有详细信息的这一系列 PDF。我已经可以使用 iTextsharp 获得一些文本细节，但问题是，一些 PDF 有图像并且该图像包含一些细节。

那么我有可能得到这些图像及其细节吗？作为下面的示例图片，我想得到“头眼”、“身体正方形”和“页脚正方形”这个词。我不需要“绘图”，我需要的是图像中的单词/s。

如果有一些 API/库可以在我的 .Net C# 应用程序中使用，那就太好了。谢谢！

【问题讨论】：

吃了那些图像位图图像，是该图像的书写部分吗？在这种情况下，您必须将 OCR 应用于可以使用 iTextSharp 提取的图像。否则，您应该成功使用 iTextSharp 文本提取功能。

【解决方案1】：

如果您要读出的文本在图像上或混合在一起，您可以使用Ghostscript 将PDF 栅格化（将pdf 页面转换为图像），然后使用Tesseract 从部分读取文本那个图片。

由于您想通过 .NET (C#) 执行此操作，因此您可以从此处获取两个组件的 .NET 包装器：

tesseract-ocr .net: https://code.google.com/p/tesseractdotnet/

【讨论】：