【问题标题】:Pretty print XML in java 8java 8中漂亮的打印XML
【发布时间】:2014-11-09 22:33:39
【问题描述】:

我有一个存储为 DOM 文档的 XML 文件,我想将它漂亮地打印到控制台,最好不使用外部库。 我知道这个问题已经在这个网站上被问过多次,但是以前的答案都没有对我有用。我使用的是 java 8,所以也许这是我的代码与以前的问题不同的地方?我还尝试使用从网上找到的代码手动设置转换器,但这只会导致not found 错误。

这是我的代码,目前只在控制台左侧的新行上输出每个 xml 元素。

import java.io.*;
import javax.xml.parsers.*;
import javax.xml.transform.*;
import javax.xml.transform.dom.DOMSource;
import javax.xml.transform.stream.StreamResult;

import org.w3c.dom.Document;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;


public class Test {
    public Test(){
        try {
            //java.lang.System.setProperty("javax.xml.transform.TransformerFactory", "org.apache.xalan.xsltc.trax.TransformerFactoryImpl");

            DocumentBuilderFactory dbFactory;
            DocumentBuilder dBuilder;
            Document original = null;
            try {
                dbFactory = DocumentBuilderFactory.newInstance();
                dBuilder = dbFactory.newDocumentBuilder();
                original = dBuilder.parse(new InputSource(new InputStreamReader(new FileInputStream("xml Store - Copy.xml"))));
            } catch (SAXException | IOException | ParserConfigurationException e) {
                e.printStackTrace();
            }
            StringWriter stringWriter = new StringWriter();
            StreamResult xmlOutput = new StreamResult(stringWriter);
            TransformerFactory tf = TransformerFactory.newInstance();
            //tf.setAttribute("indent-number", 2);
            Transformer transformer = tf.newTransformer();
            transformer.setOutputProperty(OutputKeys.METHOD, "xml");
            transformer.setOutputProperty("{http://xml.apache.org/xslt}indent-amount", "4");
            transformer.setOutputProperty(OutputKeys.OMIT_XML_DECLARATION, "no");
            transformer.setOutputProperty(OutputKeys.INDENT, "yes");
            transformer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
            transformer.transform(new DOMSource(original), xmlOutput);
            java.lang.System.out.println(xmlOutput.getWriter().toString());
        } catch (Exception ex) {
            throw new RuntimeException("Error converting to String", ex);
        }
    }

    public static void main(String[] args){
        new Test();
    }

}

【问题讨论】:

    标签: java xml dom pretty-print


    【解决方案1】:

    创建xml文件:

    new FileInputStream("xml Store - Copy.xml") ;// result xml file format incorrect ! 
    

    这样,当将给定输入源的内容解析为 XML 文档时 并返回一个新的 DOM 对象。

    Document original = null;
    ...
    original.parse("data.xml");//input source as an XML document
    

    【讨论】:

      【解决方案2】:

      这适用于 Java 8:

      public static void main (String[] args) throws Exception {
          String xmlString = "<hello><from>ME</from></hello>";
          DocumentBuilderFactory documentBuilderFactory = DocumentBuilderFactory.newInstance();
          DocumentBuilder documentBuilder = documentBuilderFactory.newDocumentBuilder();
          Document document = documentBuilder.parse(new InputSource(new StringReader(xmlString)));
          pretty(document, System.out, 2);
      }
      
      private static void pretty(Document document, OutputStream outputStream, int indent) throws Exception {
          TransformerFactory transformerFactory = TransformerFactory.newInstance();
          Transformer transformer = transformerFactory.newTransformer();
          transformer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
          if (indent > 0) {
              transformer.setOutputProperty(OutputKeys.INDENT, "yes");
              transformer.setOutputProperty("{http://xml.apache.org/xslt}indent-amount", Integer.toString(indent));
          }
          Result result = new StreamResult(outputStream);
          Source source = new DOMSource(document);
          transformer.transform(source, result);
      }
      

      【讨论】:

      • 嗯,这也适用于我,所以我想问题一定出在我读取 xml 文件的方式上。
      • 警告,此解决方案仅适用于原始 xml 中尚未(部分)缩进或包含新行的情况。也就是说,它适用于“ME”,但不适用于“\nME\n”跨度>
      • 对于普通读者,这里是@Espinosa 警告的解决方案:stackoverflow.com/a/33541820/363573
      【解决方案3】:

      我猜这个问题与原始文件中的空白文本节点(即只有空格的文本节点)有关。您应该尝试使用以下代码在解析后以编程方式删除它们。如果您不删除它们,Transformer 将保留它们。

      original.getDocumentElement().normalize();
      XPathExpression xpath = XPathFactory.newInstance().newXPath().compile("//text()[normalize-space(.) = '']");
      NodeList blankTextNodes = (NodeList) xpath.evaluate(original, XPathConstants.NODESET);
      
      for (int i = 0; i < blankTextNodes.getLength(); i++) {
           blankTextNodes.item(i).getParentNode().removeChild(blankTextNodes.item(i));
      }
      

      【讨论】:

        【解决方案4】:

        我写了一个 simple class 用于删除文档中的空格 - 支持命令行并且不使用 DOM / XPath。

        编辑:想想看,该项目还包含一个处理现有空白的漂亮打印机:

        PrettyPrinter prettyPrinter = PrettyPrinterBuilder.newPrettyPrinter().ignoreWhitespace().build();
        

        【讨论】:

          【解决方案5】:

          在回复 Espinosa 的评论时,这是“原始 xml 尚未(部分)缩进或包含新行”时的解决方案。

          背景

          摘自启发此解决方案的文章(请参阅下面的参考资料):

          根据 DOM 规范,标签外的空格是完全有效的,并且会得到适当的保留。要删除它们,我们可以使用 XPath 的 normalize-space 来定位所有空白节点并首先删除它们。

          Java 代码

          public static String toPrettyString(String xml, int indent) {
              try {
                  // Turn xml string into a document
                  Document document = DocumentBuilderFactory.newInstance()
                          .newDocumentBuilder()
                          .parse(new InputSource(new ByteArrayInputStream(xml.getBytes("utf-8"))));
          
                  // Remove whitespaces outside tags
                  document.normalize();
                  XPath xPath = XPathFactory.newInstance().newXPath();
                  NodeList nodeList = (NodeList) xPath.evaluate("//text()[normalize-space()='']",
                                                                document,
                                                                XPathConstants.NODESET);
          
                  for (int i = 0; i < nodeList.getLength(); ++i) {
                      Node node = nodeList.item(i);
                      node.getParentNode().removeChild(node);
                  }
          
                  // Setup pretty print options
                  TransformerFactory transformerFactory = TransformerFactory.newInstance();
                  transformerFactory.setAttribute("indent-number", indent);
                  Transformer transformer = transformerFactory.newTransformer();
                  transformer.setOutputProperty(OutputKeys.ENCODING, "UTF-8");
                  transformer.setOutputProperty(OutputKeys.OMIT_XML_DECLARATION, "yes");
                  transformer.setOutputProperty(OutputKeys.INDENT, "yes");
          
                  // Return pretty print xml string
                  StringWriter stringWriter = new StringWriter();
                  transformer.transform(new DOMSource(document), new StreamResult(stringWriter));
                  return stringWriter.toString();
              } catch (Exception e) {
                  throw new RuntimeException(e);
              }
          }
          

          使用示例

          String xml = "<root>" + //
                       "\n   "  + //
                       "\n<name>Coco Puff</name>" + //
                       "\n        <total>10</total>    </root>";
          
          System.out.println(toPrettyString(xml, 4));
          

          输出

          <root>
              <name>Coco Puff</name>
              <total>10</total>
          </root>
          

          参考文献

          【讨论】:

          • @btrs20 区别在于空格的去除。
          • 我最终做了类似的简单递归,只寻找空白文本节点,没有 xpath。你的代码更短。高级 XPath 的好例子。谢谢。
          • 如果这完美。但是,如果您对缺少indend-number 属性有一些例外,则解决方案将是检查实现TransformerFactory 的类的类路径。我在类路径中有库 net.sf.saxon:Saxon-HE,它定义了一个额外的 TransformerFactory。
          • 删除空格很重要。如果您的字符串在行之间有空格,则转换器不起作用。
          • @Marteng 你可以试试 underscore-java 库和 U.formatXml(xml) 方法。
          【解决方案6】:

          我不喜欢任何常见的 XML 格式化解决方案,因为它们都删除了超过 1 个连续的换行符(出于某种原因,删除空格/制表符和删除换行符是密不可分的......)。这是我的解决方案,它实际上是为 XHTML 设计的,但也应该使用 XML:

          public String GenerateTabs(int tabLevel) {
            char[] tabs = new char[tabLevel * 2];
            Arrays.fill(tabs, ' ');
          
            //Or:
            //char[] tabs = new char[tabLevel];
            //Arrays.fill(tabs, '\t');
          
            return new String(tabs);
          }
          
          public String FormatXHTMLCode(String code) {
            // Split on new lines.
            String[] splitLines = code.split("\\n", 0);
          
            int tabLevel = 0;
          
            // Go through each line.
            for (int lineNum = 0; lineNum < splitLines.length; ++lineNum) {
              String currentLine = splitLines[lineNum];
          
              if (currentLine.trim().isEmpty()) {
                splitLines[lineNum] = "";
              } else if (currentLine.matches(".*<[^/!][^<>]+?(?<!/)>?")) {
                splitLines[lineNum] = GenerateTabs(tabLevel) + splitLines[lineNum];
          
                ++tabLevel;
              } else if (currentLine.matches(".*</[^<>]+?>")) {
                --tabLevel;
          
                if (tabLevel < 0) {
                  tabLevel = 0;
                }
          
                splitLines[lineNum] = GenerateTabs(tabLevel) + splitLines[lineNum];
              } else if (currentLine.matches("[^<>]*?/>")) {
                splitLines[lineNum] = GenerateTabs(tabLevel) + splitLines[lineNum];
          
                --tabLevel;
          
                if (tabLevel < 0) {
                  tabLevel = 0;
                }
              } else {
                splitLines[lineNum] = GenerateTabs(tabLevel) + splitLines[lineNum];
              }
            }
          
            return String.join("\n", splitLines);
          }
          

          它做了一个假设:除了那些构成 XML/XHTML 标记的字符之外,没有 字符。

          【讨论】:

          • 此 sn-p 不完整,因为无法解析 codeGenerator 变量。对应的类是用java写的吗?因为 java 方法名确实有不同的命名约定。
          • @benez 很抱歉,感谢您通知我。我没有意识到正在使用外部代码。试试吧,我认为它会起作用;目前无法测试。
          【解决方案7】:

          Underscore-java 有静态方法U.formatXml(string)。我是项目的维护者。 Live example

          import com.github.underscore.U;
          
          public class MyClass {
              public static void main(String args[]) {
                  String xml = "<root>" + //
                       "\n   "  + //
                       "\n<name>Coco Puff</name>" + //
                       "\n        <total>10</total>    </root>";
          
                  System.out.println(U.formatXml(xml));
              }
          }
          

          输出:

          <root>
             <name>Coco Puff</name>
             <total>10</total>
          </root>
          

          【讨论】:

            猜你喜欢
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 2010-09-13
            • 1970-01-01
            • 2015-05-12
            • 2023-03-07
            • 2012-03-25
            • 2011-05-05
            相关资源
            最近更新 更多