【发布时间】:2014-04-25 12:13:30
【问题描述】:
我有一些 .doc 和 .pdf 文件的文档,我的要求是从我将在运行时提供的 .doc 或 .pdf 文件中读取特定页面。这可以通过逐页阅读和如果我进行编号,则在每页的末尾。但是有些我得到一些文件,其中编号不是他们的,所以我该怎么做?
他们有任何 api 或任何其他逻辑,以便我可以解决这个问题吗?
大家好 我有 .DOC 文件,但我不应该阅读整个文件,而是给我一个页码。 因此我只能从 doc 文件中读取特定页面。 我正在使用 apache.poi api。
file = new File("c://doc/assignment/afternoon_24.doc");
FileInputStream fis=new FileInputStream(file.getAbsolutePath());
我需要读取此文件的第 X 页并写入文本文件吗?
【问题讨论】:
-
关于 pdf 文件:有多个 PDF 库,其中许多允许从单个页面提取文本。有什么额外的要求吗?许可证?预算?已在使用的库?
-
@mkl 在我们的项目中,阅读 pdf 是次要要求如何文档