通过XML解析从docx文件中提取第一页内容答案

【问题标题】：Extract the first page content from docx file by XML parsing通过XML解析从docx文件中提取第一页内容
【发布时间】：2014-08-24 08:07:13
【问题描述】：

我需要从 docx 文件中提取第一页内容并将其另存为单独的文档。我需要将第一页中的所有内容（图像、表格、文本）保存在新的 docx 文件中。

我尝试的是：我查看了解压缩的 docx 文件的 xml。由于word文档是可重排的，我在每页结束后找不到分页符。所以我无法通过 document.xml 找到每一页的结尾

有没有什么方法可以单独使用 java XML DOM 解析器获取文档第一页的 XML 内容？

【问题讨论】：

【解决方案1】：

不要编写新的解析器，有大量现有的工具可以解决这个问题（例如，如果您的输入从 XML 更改为二进制 Word 文件怎么办？）。

使用Apache POI 为例，正如@JFB 所建议的那样。

【讨论】：