与在 Dom4J 中使用 DOM 相比，XPath 的效率如何？答案

【问题标题】：How efficient is XPath compared to using DOM in Dom4J?与在 Dom4J 中使用 DOM 相比，XPath 的效率如何？
【发布时间】：2010-10-16 14:10:18
【问题描述】：

例如考虑下面的xml

<root>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
</root>

是使用 DOM 获取根节点，然后循环遍历 childNode 和 grandChildNode 还是使用 XPath 表达式收集子节点和 grandChild 节点的详细信息有效？

【问题讨论】：

标签： xml dom xpath dom4j

【解决方案1】：

如果您想完整地处理一个 XML 文档，将 XML 解析为 DOM 在反序列化时间、CPU 使用率和内存使用率方面几乎总是效率最低的。

解析为 DOM 需要大约 10-15 倍的内存量，因为 XML 文档需要磁盘空间。例如，一个 1 兆字节的 XML 文档将解析成一个占用 10-15 兆字节内存的 DOM。

仅当您打算修改部分或全部数据然后将结果放回 XML 文档时才解析为 DOM。对于所有其他用例，DOM 是一个糟糕的选择。

XPath 通常占用的资源要少得多，但这确实取决于文档的长度（即您有多少“childNode”元素）以及您感兴趣的数据在文档中的位置。

XPath 内存使用和完成时间往往会随着文档的深入而增加。例如，假设您有一个包含 20,000 个 childNode 元素的 XML 文档，每个 childNode 都有一个您事先知道的唯一标识符，并且您想从文档中提取一个已知的 childNode。提取第 18,345 个子节点会比提取第 3 个子节点使用更多的内存。

因此，如果您使用 XPath 来提取所有 childNode 元素，您可能会发现它的效率低于解析为 DOM 的效率。 XPath 通常是一种提取 XML 文档的一部分的简单方法。我不建议使用它来处理所有 XML 文档。

到目前为止，如果您确实希望提取和处理 XML 文档中的所有数据，最好的方法是使用基于 SAX 的阅读器。这将比任何其他方法都快几个数量级，并且资源占用更少。

也就是说，它还取决于您正在处理的数据量。对于您提供的示例 XML 文档，您不会注意到任何实际差异。是的，DOM 会“慢”而 SAX 会“快”，但我们说的是毫秒或微秒的差异。

SAX 可以轻松地比 DOM 快数百或数千倍，但是如果这是 2 微秒和 2 毫秒之间的差异，您将不会注意到。当您处理包含 20,000 个 childNode 元素的文档时，2 秒与 200 秒将成为更大的问题。

【讨论】：