【问题标题】:Difference in performance between Stax and DOM parsingStax 和 DOM 解析的性能差异
【发布时间】:2011-02-01 00:47:33
【问题描述】:

我已经使用 DOM 很长时间了,因此 DOM 解析性能非常好。即使在处理大约 4-7 MB 的 XML 时,解析速度也很快。我们使用 DOM 面临的问题是内存占用,一旦我们开始处理大型 XML,就会变得巨大。

最近我尝试转移到 Stax(XML 的流解析器),它被认为是第二代解析器的顶级(阅读有关 Stax 的文章,它说它现在是最快的解析器)。当我为大型 XML 尝试使用 Stax 解析器时,大约 4MB 的内存占用肯定大大减少了,但是解析整个 XML 并从中创建 java 对象的时间几乎比 DOM 增加了 5 倍。

我使用了 Stax 的 sjsxp.jar 实现。

我可以从逻辑上推断出,由于解析器的流特性,性能可能不是非常好,但减少了 5 时间(例如,DOM 需要大约 8 秒来为这个 XML 构建对象,而 Stax 解析大约需要 40平均秒数)绝对是不可接受的。

我是否完全错过了一些要点,因为我无法接受这些性能数据

【问题讨论】:

  • 你能提供更多细节吗?您使用什么算法来使用带有 DOM 的 XML 以及使用什么算法来使用 StAX 事件?根据我的经验,编写使用 StAX 事件的代码比较困难,但性能始终优于 DOM。
  • 你使用的是游标API还是事件迭代器API?
  • 我强烈建议您使用适当的分析器来找到您的瓶颈,否则您将花费​​很长时间来追逐疯狂的猜测。

标签: java xml-parsing


【解决方案1】:
package parsers;

/**
 *
 * @author Arthur Kushman
 */

import java.io.File;
import java.io.IOException;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.w3c.dom.Document;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;
import org.w3c.dom.Element;


public class DOMTest {

  public static void main(String[] args) {
  long time1 = System.currentTimeMillis();
   try {
    DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
    DocumentBuilder db = dbf.newDocumentBuilder();
    Document doc = db.parse(new File("/Users/macpro/Desktop/myxml.xml"));
    doc.getDocumentElement().normalize();
    // System.out.println("Root Element: "+doc.getDocumentElement().getNodeName());
    NodeList nodeList = doc.getElementsByTagName("input");
    // System.out.println("Information of all elements in input");

    for (int s=0;s<nodeList.getLength();s++) {
      Node firstNode = nodeList.item(s);
      if (firstNode.getNodeType() == Node.ELEMENT_NODE) {
        Element firstElement = (Element)firstNode;
        NodeList firstNameElementList = firstElement.getElementsByTagName("href");
        Element firstNameElement = (Element)firstNameElementList.item(0);
        NodeList firstName = firstNameElement.getChildNodes();
        System.out.println("First Name: "+((Node)firstName.item(s)).getNodeValue());        
      }
    }


   } catch (Exception ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
   }
  long time2 = System.currentTimeMillis() - time1;
  System.out.println(time2);
  }

}

45 家工厂

package parsers;

/**
 *
 * @author Arthur Kushman
 */
import javax.xml.stream.*;
import java.io.*;
import javax.xml.namespace.QName;

public class StAXTest {

  public static void main(String[] args) throws Exception {
  long time1 = System.currentTimeMillis();
    XMLInputFactory factory = XMLInputFactory.newInstance();
    // factory.setXMLReporter(myXMLReporter);
    XMLStreamReader reader = factory.createXMLStreamReader(
            new FileInputStream(
            new File("/Users/macpro/Desktop/myxml.xml")));

    /*String encoding = reader.getEncoding();

    System.out.println("Encoding: "+encoding);

    while (reader.hasNext()) {
      int event = reader.next();
      if (event == XMLStreamConstants.START_ELEMENT) {
        QName element = reader.getName();
        // String text = reader.getText();
        System.out.println("Element: "+element);
        // while (event != XMLStreamConstants.END_ELEMENT) {
          System.out.println("Text: "+reader.getLocalName());
        // }
      }
    }*/

  try {
    int inElement = 0;
    for (int event = reader.next();event != XMLStreamConstants.END_DOCUMENT;
    event = reader.next()) {
      switch (event) {
        case XMLStreamConstants.START_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement++;
          }
          break;
        case XMLStreamConstants.END_ELEMENT:
          if (isElement(reader.getLocalName(), "href")) {
            inElement--;
            if (inElement == 0) System.out.println();
          }
          break;
        case XMLStreamConstants.CHARACTERS:
          if (inElement>0) System.out.println(reader.getText());
          break;
        case XMLStreamConstants.CDATA:
          if (inElement>0)  System.out.println(reader.getText());
          break;
      }
    }
    reader.close();
  } catch (XMLStreamException ex) {
    System.out.println(ex.getMessage());
    System.exit(1);
  }
    // System.out.println(System.currentTimeMillis());
    long time2 = System.currentTimeMillis() - time1;
    System.out.println(time2);
 }

  public static boolean isElement(String name, String element) {
    if (name.equals(element)) return true;
    return false;
  }

}

23 家工厂

StAX 获胜 =)

【讨论】:

【解决方案2】:

虽然问题缺少一些细节,但我很确定答案是在这两种情况下它的解析速度都不是很慢(DOM 不是解析器;DOM 树通常是使用 SAX 或 Stax 解析器构建的),但上面的代码创建对象。

有一些高效的自动数据绑定器,包括 JAXB(以及适当的设置,XStream),这可能会有所帮助。它们比 DOM 更快,因为 DOM(以及 JDOM、Dom4j 和 XOM)的主要性能问题是树模型与 POJO 相比本质上是昂贵的——它们基本上是美化的 HashMaps,有很多用于方便无类型遍历的指针;尤其是在内存使用方面。

对于解析器,Woodstox 是比 Sjsxp 更快的 Stax 解析器;如果原始速度至关重要,Aalto 甚至更快。但我怀疑这里的主要问题是解析器速度。

【讨论】:

    【解决方案3】:

    在我看来,speed/memory tradeoff 的经典案例。除了尝试 SAX(或 JDOM)并再次测量之外,您无能为力。

    【讨论】:

      【解决方案4】:

      尝试创建一个 2000M 的 XML,然后比较数字。我想基于 DOM 的方法在较小的数据上会更快。随着数据变大,Stax(或任何基于 sax 的方法)将成为选项。

      (我们处理 3G 或大文件。DOM 甚至不启动应用程序。)

      【讨论】:

        猜你喜欢
        • 2014-06-30
        • 2013-07-12
        • 1970-01-01
        • 2013-11-24
        • 2017-02-26
        • 2022-01-22
        • 2019-05-01
        • 2013-06-17
        • 2012-04-28
        相关资源
        最近更新 更多