【问题标题】:how Read a particular Page from a doc or pdf file.如何从 doc 或 pdf 文件中读取特定页面。
【发布时间】:2014-04-25 12:13:30
【问题描述】:

我有一些 .doc 和 .pdf 文件的文档,我的要求是从我将在运行时提供的 .doc 或 .pdf 文件中读取特定页面。这可以通过逐页阅读和如果我进行编号,则在每页的末尾。但是有些我得到一些文件,其中编号不是他们的,所以我该怎么做?

他们有任何 api 或任何其他逻辑,以便我可以解决这个问题吗?

大家好 我有 .DOC 文件,但我不应该阅读整个文件,而是给我一个页码。 因此我只能从 doc 文件中读取特定页面。 我正在使用 apache.poi api。

     file = new File("c://doc/assignment/afternoon_24.doc");  
     FileInputStream fis=new FileInputStream(file.getAbsolutePath());  

我需要读取此文件的第 X 页并写入文本文件吗?

【问题讨论】:

  • 关于 pdf 文件:有多个 PDF 库,其中许多允许从单个页面提取文本。有什么额外的要求吗?许可证?预算?已在使用的库?
  • @mkl 在我们的项目中,阅读 pdf 是次要要求如何文档

标签: java pdf file-io


【解决方案1】:

我想有一个误解:您不能将 DOC(或 PDF)简单地作为输入流来阅读并跳过页面(除非您知道并评估文件格式)。 这两个文件都有一个格式(将格式和元信息编码成一些二进制格式)。只需尝试在记事本或其他纯文本编辑器中打开 PDF。你会看到的。

正如 mkl 建议的那样:要访问 DOC(或 PDF)的内容,您需要一个可以处理该文件格式的库。对于 Microsoft Office 格式,例如开源库 Apache POI,对于 PDF,例如 PDF boxa full thread about it。每种格式都有不同的库,具有不同的功能和许可模型。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2023-04-01
    • 2011-10-13
    • 2023-02-26
    • 2021-08-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多