【问题标题】:Extract text form pdf using Foxit SDK使用 Foxit SDK 从 pdf 中提取文本
【发布时间】:2012-01-27 05:51:48
【问题描述】:

我正在使用 Foxit SDK 从 Pdf 文档中提取文本。

一切正常,但是当我提取其他语言而不是英语的 pdf 时,我没有得到正确的输出。

我也在 java 中使用过 PDFBox,但是输出最差,Foxit SDK 的输出比 PDFBox 好。

是否有其他库可以解决这个问题..? 或者还有其他解决方案。

【问题讨论】:

  • 你试过这个吗? codeproject.com/Articles/14170/…
  • @ShoaibShaikh 是的,我已经尝试过了,但是除了英文的 pdf 之外,它不起作用..i 给出了空白输出。 :(
  • 我猜你将不得不修改 pdf 解析算法。你必须识别 unicode 字符范围并提取选定区域。这是我提到的文章中使用的 pdfparser,你必须修改codeproject.com/Articles/7056/…

标签: c# java pdf pdftotext foxit


【解决方案1】:

就个人而言,如果你想把它做好,你必须为此付出代价。 ComponentOne 有一个用于 WPF 的 PDFViewer。由于您的标签缺少一个,因此不确定您使用的是什么框架。

ComponentOne PDF Viewer for WPF

【讨论】:

  • 但我认为这无助于从 pdf 中提取文本。
【解决方案2】:

您可能想试用 Quick PDF Library 的试用版,看看它在您的文档上的表现如何。 http://www.quickpdflibrary.com

QP.GetPageText(7) 或 GetPageText(8) 对大多数 PDF 文件返回相当好的结果。

安德鲁。

免责声明:我为 Quick PDF Library 做了一些咨询工作。

【讨论】:

    【解决方案3】:

    如果您在 Windows 上,则可以使用 adobe 提供的 IFilter。我,我使用了 adobe reader 8 提供的 IFilter。 这是我使用的确切示例的链接

    http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

    性能还可以(我认为。我没有使用很多其他方法)。 400 页 PDF 大约需要 15 秒。

    【讨论】:

      猜你喜欢
      • 2015-04-24
      • 1970-01-01
      • 1970-01-01
      • 2022-08-05
      • 2015-08-17
      • 2012-12-30
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多