使用 Foxit SDK 从 pdf 中提取文本答案

【问题标题】：Extract text form pdf using Foxit SDK使用 Foxit SDK 从 pdf 中提取文本
【发布时间】：2012-01-27 05:51:48
【问题描述】：

我正在使用 Foxit SDK 从 Pdf 文档中提取文本。

一切正常，但是当我提取其他语言而不是英语的 pdf 时，我没有得到正确的输出。

我也在 java 中使用过 PDFBox，但是输出最差，Foxit SDK 的输出比 PDFBox 好。

是否有其他库可以解决这个问题..？或者还有其他解决方案。

【问题讨论】：

你试过这个吗？ codeproject.com/Articles/14170/…
@ShoaibShaikh 是的，我已经尝试过了，但是除了英文的 pdf 之外，它不起作用..i 给出了空白输出。 :(
我猜你将不得不修改 pdf 解析算法。你必须识别 unicode 字符范围并提取选定区域。这是我提到的文章中使用的 pdfparser，你必须修改codeproject.com/Articles/7056/…

【解决方案1】：

就个人而言，如果你想把它做好，你必须为此付出代价。 ComponentOne 有一个用于 WPF 的 PDFViewer。由于您的标签缺少一个，因此不确定您使用的是什么框架。

【讨论】：

【解决方案2】：

您可能想试用 Quick PDF Library 的试用版，看看它在您的文档上的表现如何。 http://www.quickpdflibrary.com

QP.GetPageText(7) 或 GetPageText(8) 对大多数 PDF 文件返回相当好的结果。

安德鲁。

免责声明：我为 Quick PDF Library 做了一些咨询工作。

【讨论】：

【解决方案3】：

如果您在 Windows 上，则可以使用 adobe 提供的 IFilter。我，我使用了 adobe reader 8 提供的 IFilter。这是我使用的确切示例的链接

性能还可以（我认为。我没有使用很多其他方法）。 400 页 PDF 大约需要 15 秒。

【讨论】：