使用 OpenOffice API 抓取整个文档树答案

【问题标题】：Grab entire document tree with OpenOffice API使用 OpenOffice API 抓取整个文档树
【发布时间】：2009-07-22 00:14:53
【问题描述】：

我想在OpenOffice 3.1 中获取整个树以获取Writer 文档。我需要收集树中所有元素的数据，而不仅仅是 Text 元素。

通过加载XTextDocument 并执行getText() 将得到XText 元素。更具体地说，使用XText 中的XEnumerationAccess 只会遍历TextRange。

来自 OpenOffice 文档/DevGuide/Text/Iterating_over_Text：

com.sun.star.text.Text的第二个接口是XEnumerationAccess。文本服务枚举文本中的所有段落，并返回支持 com.sun.star.text.Paragraph 的对象。这包括表格，因为作者将表格视为支持 com.sun.star.text.TextTable 服务的特殊段落。

这里有一些额外的文档：

段落的文本部分枚举不提供确实属于该段落的内容，但不与文本流融合在一起。这些可以是文本框架、图形对象、嵌入对象或锚定在段落、字符或作为字符的图形形状。 TextPortionType“TextContent”指示是否有内容锚定在字符或作为字符。如果你有一个 TextContent 部分类型，你就知道有一些形状对象锚定在一个字符上或作为一个字符。

我的测试文档表明我确实得到了XTextContent，并且可以通过getAnchor() 收集XTextRange。但是如何确定我正在收集的内容类型？唯一的方法是getString()。如果对象是嵌入图像，我如何收集其数据？

我正在使用 C++，但我相信 Java 中的解决方案是可移植的。

从答案迁移

由于格式不佳，此评论作为答案发布。

感谢您的回复。

我打算使用 API。

我正在尝试从文档中收集GrahicObjects 的示例。通过使用XGraphicObjectsSupplier，我可以通过getGraphicObjects() 获得一个集合。集合中的对象是Any，通过getValueTypeName() 打印类型会得到XTextContent。

API 描述该集合拥有一个TextGraphicObject“服务”。如何获取它的实例？

【问题讨论】：

标签： java c++ openoffice.org

【解决方案1】：

您的问题的答案会很复杂，但我会尽量让自己易于理解。

将文档导出为 XML 使用 SAX 更容易处理。如果使用 XML 方式，您将不得不实现 XDocumentHandler 并阅读文档（可选过滤什么你不需要）。剩下的工作将是 XSLT 转换或大型文档的 SAX。
如果您更喜欢仅使用 API，你必须玩很多 XServiceInfo 和 UnoRuntime.queryInterface

【讨论】：

【解决方案2】：

在java中：

XComponentContext xContext = Bootstrap.bootstrap();
XMultiComponentFactory xMCF = xContext.getServiceManager();
Object oDesktop = xMCF.createInstanceWithContext("com.sun.star.frame.Desktop", xContext);
XDesktop xDesktop = UnoRuntime.queryInterface(XDesktop.class, oDesktop);
XComponentLoader xCompLoader = UnoRuntime.queryInterface(XComponentLoader.class, xDesktop);
XComponent xComp = xCompLoader.loadComponentFromURL("file:///C:/test.odt", "_blank", 0, new Boolean(true));
XTextDocument xDoc = UnoRuntime.queryInterface(XTextDocument.class, xComp);
XModel xModel =UnoRuntime.queryInterface( XModel.class, xDoc );
XDrawPageSupplier xDPS = UnoRuntime.queryInterface(XDrawPageSupplier.class, xModel);
XDrawPage xDrawPage = xDPS.getDrawPage();
XShapes xShapes = UnoRuntime.queryInterface( XShapes.class, xDrawPage );
for (int s=0;s<xDrawPage.getCount();s++) {
   XShape xShape = UnoRuntime.queryInterface( XShape.class, xShapes.getByIndex(s) );
   System.out.println(" -- sh.getShapeType: " + xShape.getShapeType());
   System.out.println(" -- sh.getPosition: " + xShape.getPosition().X + "x" + xShape.getPosition().Y);
   System.out.println(" -- sh.getSize: " + xShape.getSize().Width + "x" + xShape.getSize().Height);
}

【讨论】：