【问题标题】:How efficient is XPath compared to using DOM in Dom4J?与在 Dom4J 中使用 DOM 相比,XPath 的效率如何?
【发布时间】:2010-10-16 14:10:18
【问题描述】:

例如考虑下面的xml

<root>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
  <childNode attribute1="value1">
     <grandChildNode attrib1="val1" attrib2="val2">some content1
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content2
     </grandChildNode>
     <grandChildNode attrib1="val1" attrib2="val2">some content3
     </grandChildNode>
  </childNode>
</root>

是使用 DOM 获取根节点,然后循环遍历 childNode 和 grandChildNode 还是使用 XPath 表达式收集子节点和 grandChild 节点的详细信息有效?

【问题讨论】:

    标签: xml dom xpath dom4j


    【解决方案1】:

    如果您想完整地处理一个 XML 文档,将 XML 解析为 DOM 在反序列化时间、CPU 使用率和内存使用率方面几乎总是效率最低的。

    解析为 DOM 需要大约 10-15 倍的内存量,因为 XML 文档需要磁盘空间。例如,一个 1 兆字节的 XML 文档将解析成一个占用 10-15 兆字节内存的 DOM。

    仅当您打算修改部分或全部数据然后将结果放回 XML 文档时才解析为 DOM。对于所有其他用例,DOM 是一个糟糕的选择。

    XPath 通常占用的资源要少得多,但这确实取决于文档的长度(即您有多少“childNode”元素)以及您感兴趣的数据在文档中的位置。

    XPath 内存使用和完成时间往往会随着文档的深入而增加。例如,假设您有一个包含 20,000 个 childNode 元素的 XML 文档,每个 childNode 都有一个您事先知道的唯一标识符,并且您想从文档中提取一个已知的 childNode。提取第 18,345 个子节点会比提取第 3 个子节点使用更多的内存。

    因此,如果您使用 XPath 来提取所有 childNode 元素,您可能会发现它的效率低于解析为 DOM 的效率。 XPath 通常是一种提取 XML 文档的一部分的简单方法。我不建议使用它来处理所有 XML 文档。

    到目前为止,如果您确实希望提取和处理 XML 文档中的所有数据,最好的方法是使用基于 SAX 的阅读器。这将比任何其他方法都快几个数量级,并且资源占用更少。

    也就是说,它还取决于您正在处理的数据量。对于您提供的示例 XML 文档,您不会注意到任何实际差异。是的,DOM 会“慢”而 SAX 会“快”,但我们说的是毫秒或微秒的差异。

    SAX 可以轻松地比 DOM 快数百或数千倍,但是如果这是 2 微秒和 2 毫秒之间的差异,您将不会注意到。当您处理包含 20,000 个 childNode 元素的文档时,2 秒与 200 秒将成为更大的问题。

    【讨论】:

      猜你喜欢
      • 2010-10-15
      • 1970-01-01
      • 1970-01-01
      • 2022-01-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多