【问题标题】:Extract the first page content from docx file by XML parsing通过XML解析从docx文件中提取第一页内容
【发布时间】:2014-08-24 08:07:13
【问题描述】:

我需要从 docx 文件中提取第一页内容并将其另存为单独的文档。我需要将第一页中的所有内容(图像、表格、文本)保存在新的 docx 文件中。

我尝试的是: 我查看了解压缩的 docx 文件的 xml。由于word文档是可重排的,我在每页结束后找不到分页符。所以我无法通过 document.xml 找到每一页的结尾

有没有什么方法可以单独使用 java XML DOM 解析器获取文档第一页的 XML 内容?

【问题讨论】:

    标签: java xml document domparser


    【解决方案1】:

    不要编写新的解析器,有大量现有的工具可以解决这个问题(例如,如果您的输入从 XML 更改为二进制 Word 文件怎么办?)。

    使用Apache POI 为例,正如@JFB 所建议的那样。

    【讨论】:

    • 我已经尝试过 poi。我可以使用 poi 中的单个函数提取段落,但我怎么知道我的第一页包含多少段落?
    猜你喜欢
    • 1970-01-01
    • 2016-11-20
    • 2017-02-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-11
    • 2019-10-05
    • 1970-01-01
    相关资源
    最近更新 更多