【发布时间】:2012-01-27 05:51:48
【问题描述】:
我正在使用 Foxit SDK 从 Pdf 文档中提取文本。
一切正常,但是当我提取其他语言而不是英语的 pdf 时,我没有得到正确的输出。
我也在 java 中使用过 PDFBox,但是输出最差,Foxit SDK 的输出比 PDFBox 好。
是否有其他库可以解决这个问题..? 或者还有其他解决方案。
【问题讨论】:
-
你试过这个吗? codeproject.com/Articles/14170/…
-
@ShoaibShaikh 是的,我已经尝试过了,但是除了英文的 pdf 之外,它不起作用..i 给出了空白输出。 :(
-
我猜你将不得不修改 pdf 解析算法。你必须识别 unicode 字符范围并提取选定区域。这是我提到的文章中使用的 pdfparser,你必须修改codeproject.com/Articles/7056/…
标签: c# java pdf pdftotext foxit