【发布时间】:2019-04-21 14:57:02
【问题描述】:
我正在尝试阅读 Java 中的文本,但效果不佳。 这是我的代码
PDFTextStripper pdfStripper = null;
PDDocument pdDoc = null;
COSDocument cosDoc = null;
File pdfFile = new File("1.pdf");
PDFParser parser = new PDFParser(new RandomAccessFile(pdfFile,"rw"));
parser.parse();
cosDoc = parser.getDocument();
pdfStripper = new PDFTextStripper();
pdDoc = new PDDocument(cosDoc);
pdfStripper.setStartPage(1);
pdfStripper.setEndPage(5);
String parsedText = pdfStripper.getText(pdDoc);
System.out.println(parsedText);
但是结果是这样的
请稍候...
如果此消息最终没有被文档的正确内容替换,您的 PDF 查看器可能无法显示此类文档。
您可以通过以下方式升级到最新版本的适用于 Windows®、Mac 或 Linux® 的 Adobe Reader 访问http://www.adobe.com/go/reader_download。
有关 Adobe Reader 的更多帮助,请访问http://www.adobe.com/go/acrreader。
Windows 是 Microsoft Corporation 在美国和/或其他国家/地区的注册商标或商标。 Mac是商标 苹果公司,在美国和其他国家注册。 Linux 是 Linus Torvalds 在美国和其他国家的注册商标 国家。
我发现这个错误是因为 xfa pdf 文档而发生的。 但我不知道我的 pdf 文档的 xfa 格式。 所以请告诉我如何知道 xfa 格式。
请有人帮助我。 谢谢!
【问题讨论】:
-
你能分享你的程序生成的PDF文件吗?
-
抱歉,该 pdf 文件包含我的一些业务信息,因此我无法分享。它包含输入字段、按钮和复选框。你对这个问题有任何想法吗?当我用 Adobe Reader 打开它时它显示正确
-
可能是 xfa 形式,PDFBox 不支持。
-
谢谢。是的,它是 xfa 表格。我认为 PDFBox 支持 xfa 表单。 stackoverflow.com/questions/10536334/combining-xfa-with-pdfbox 但是,在我的代码中,它不起作用...
-
“支持”只是为了检索 XML 组件。
标签: java pdfbox pdf-reader xfa