使用QDomDocument解析html数据时如何保留“？答案

【问题标题】：How can I keep “ when I use QDomDocument to parse html data?使用QDomDocument解析html数据时如何保留“？
【发布时间】：2020-04-17 06:20:53
【问题描述】：

void test()
    {
        QDomDocument doc("doc");
        QByteArray data = "<div><p>Of course, &ldquo;Jason.&rdquo; My thoughts, exactly.</p></div>";

        QString sErrorMsg;
        int errLine, errCol;

        if (!doc.setContent(data, &sErrorMsg, &errLine, &errCol)) {
            qDebug() << sErrorMsg;
            qDebug() << errLine << ":" << errCol;
            return;
        }

        QDomNodeList pList = doc.elementsByTagName("p");
        for (int i = 0; i < pList.size(); i++)
        {
            QDomNode p = pList.at(i);
            while (!p.isNull()) {
                QDomElement e = p.toElement(); 
                if (!e.isNull()) {
                    QByteArray ba = e.text().toUtf8(); //Here, there is no left and right quota marks anymore.

                }
                p = p.nextSibling();
            }
        }

    }

我正在解析一个带有&ldquo;和&rdquo;的html短语。代码运行到QByteArray ba = e.text().toUtf8();，没有配额标记。

如何保留它们？

【问题讨论】：

你确定不仅仅是你的调试控制台不能显示这些吗？
@rustyx，我看到了每个 ba[i]。
@rustyx，我又做了一次测试QByteArray data = "<div><p>&ldquo;</p></div>"。 e.toElement().text().size() 为 0。

标签： html c++ qt

【解决方案1】：

我必须承认这是我第一次使用QDomDocument，尽管我已经对一般的 XML 和特别是 libXml2 有一些经验。

首先，我可以确认QDomElement::text() 返回的文本没有实体编码的印刷引号。

我稍微修改了 OP 的 MCVE，现在应该很清楚为什么会发生这种情况了。

我的testQDomDocument.cc：

#include <QtXml>

static const char* toString(QDomNode::NodeType nodeType);

int main(int, char**)
{
  QByteArray text = "<div><p>Of course, &ldquo;Jason.&rdquo; My thoughts, exactly.</p></div>";
  // setup doc. DOM
  QDomDocument qDomDoc("doc");
  QString qErrorMsg; int errorLine = 0, errorCol = 0;
  if (!qDomDoc.setContent(text, &qErrorMsg, &errorLine, &errorCol)) {
    qDebug() << "Line:" << errorLine << "Col.:" << errorCol << qErrorMsg;
    return 1;
  }
  // inspect DOM
  QDomNodeList qListP = qDomDoc.elementsByTagName("p");
  const int nP = qListP.size();
  qDebug() << "Number of found <p> nodes:" << nP;
  for (int i = 0; i < nP; ++i) {
    const QDomNode qNodeP = qListP.at(i);
    qDebug() << "node <p> #" << i;
    qDebug() << "node.toElement().text(): " << qNodeP.toElement().text();
    for (QDomNode qNode = qNodeP.firstChild(); !qNode.isNull(); qNode = qNode.nextSibling()) {
      qDebug() << toString(qNode.nodeType());
      switch (qNode.nodeType()) {
        case QDomNode::TextNode:
#if 1 // IMHO, the correct way:
          qDebug() << qNode.toText().data();
#else // works as well:
          qDebug() << qNode.nodeValue();
#endif // 1
          break;
        case QDomNode::EntityReferenceNode:
          qDebug() << qNode.nodeName();
          break;
        default:; // rest of types left out to keep sample short
      }
    }
  }
  // done
  return 0;
}

const char* toString(QDomNode::NodeType nodeType)
{
  static const std::map<QDomNode::NodeType, const char*> mapNodeTypes {
    { QDomNode::ElementNode, "QDomNode::ElementNode" },
    { QDomNode::AttributeNode, "QDomNode::AttributeNode" },
    { QDomNode::TextNode, "QDomNode::TextNode" },
    { QDomNode::CDATASectionNode, "QDomNode::CDATASectionNode" },
    { QDomNode::EntityReferenceNode, "QDomNode::EntityReferenceNode" },
    { QDomNode::EntityNode, "QDomNode::EntityNode" },
    { QDomNode::ProcessingInstructionNode, "QDomNode::ProcessingInstructionNode" },
    { QDomNode::CommentNode, "QDomNode::CommentNode" },
    { QDomNode::DocumentNode, "QDomNode::DocumentNode" },
    { QDomNode::DocumentTypeNode, "QDomNode::DocumentTypeNode" },
    { QDomNode::DocumentFragmentNode, "QDomNode::DocumentFragmentNode" },
    { QDomNode::NotationNode, "QDomNode::NotationNode" },
    { QDomNode::BaseNode, "QDomNode::BaseNode" },
    { QDomNode::CharacterDataNode, "QDomNode::CharacterDataNode" }
  };
  const std::map<QDomNode::NodeType, const char*>::const_iterator iter
    = mapNodeTypes.find(nodeType);
  return iter != mapNodeTypes.end() ? iter->second : "<ERROR>";
}

Qt 项目文件——testQDomDocument.pro:

SOURCES = testQDomDocument.cc

QT += xml

构建和测试：

$ qmake-qt5 testQDomDocument.pro

$ make && ./testQDomDocument 
g++ -c -fno-keep-inline-dllexport -D_GNU_SOURCE -pipe -O2 -Wall -W -D_REENTRANT -DQT_NO_DEBUG -DQT_GUI_LIB -DQT_XML_LIB -DQT_CORE_LIB -I. -isystem /usr/include/qt5 -isystem /usr/include/qt5/QtGui -isystem /usr/include/qt5/QtXml -isystem /usr/include/qt5/QtCore -I. -I/usr/lib/qt5/mkspecs/cygwin-g++ -o testQDomDocument.o testQDomDocument.cc
g++  -o testQDomDocument.exe testQDomDocument.o   -lQt5Gui -lQt5Xml -lQt5Core -lGL -lpthread 
Number of found <p> nodes: 1
node <p> # 0
node.toElement().text():  "Of course, Jason. My thoughts, exactly."
QDomNode::TextNode
"Of course, "
QDomNode::EntityReferenceNode
"ldquo"
QDomNode::TextNode
"Jason."
QDomNode::EntityReferenceNode
"rdquo"
QDomNode::TextNode
" My thoughts, exactly."

$

要了解发生了什么，知道<p> 的内容没有直接存储在<p> 的QDomNode 实例中会有所帮助。相反，<p>（以及任何其他元素）的 QDomNode 实例具有用于存储其内容的子节点，例如一个 QDomText 实例来存储一段文本。

因此，QDomElement::text() 是一个方便的函数，它仅返回（收集的）文本，但似乎忽略了任何其他节点。在 OPs 示例中，<p> 的 QDomElement 的所有子节点并非都是文本节点。

实体（&ldquo;、&rdquo;）存储为QDomEntityReference 实例，显然在QDomElement::text() 中被跳过。

我必须承认我有点惊讶，因为（根据我在 libXml2 的经验）我已经习惯了实体也被解析为文本的事实。

QDomEntityReference中的段落：

此外，XML 处理器可以在构建 DOM 树时完全扩展对实体的引用，而不是提供 QDomEntityReference 对象。

支持我对QDomDocument 的相同期望。

但是，示例表明在这种情况下情况并非如此。

三思而后行，我意识到&ldquo; 和&rdquo; 不是 XML 中的预定义实体。

HTML5 (and before) 中是这种情况，但一般 XML 中不是这种情况。

XML 中唯一的预定义实体是：

Name | Chr. | Codepoint   | Meaning
-----+------+-------------+-----------------
quot |  "   | U+0022 (34) | quotation mark
amp  |  &   | U+0026 (38) | ampersand
apos |  '   | U+0027 (39) | apostrophe
lt   |  <   | U+003C (60) | less-than sign
gt   |  >   | U+003E (62) | greater-than sign

因此，对于 HTML 实体的替换，QDomDocument 中还需要其他内容。

顺便说一句。在寻找这个方向的提示时，我偶然发现：

SO: QDomDocument fails to set content of an HTML document with tag

我想了一会儿如何解决这个问题。

我想知道我没有立即想到一个非常简单的解决方法：将实体替换为numeric character references。

HTML Entity | NCR
------------+----------
&ldquo;     | &#x201c;
&rdquo;     | &#x201d;

对上述示例稍作修改：

int main(int, char**)
{
  QByteArray text =
    "<div><p>Of course, &#x201c;Jason.&#x201d; My thoughts, exactly.</p></div>";
  // setup doc. DOM
  QDomDocument qDomDoc("doc");
  QString qErrorMsg; int errorLine = 0, errorCol = 0;
  if (!qDomDoc.setContent(text, &qErrorMsg, &errorLine, &errorCol)) {
    qDebug() << "Line:" << errorLine << "Col.:" << errorCol << qErrorMsg;
    return 1;
  }
  // inspect DOM
  QDomNodeList qListP = qDomDoc.elementsByTagName("p");
  const int nP = qListP.size();
  qDebug() << "Number of found <p> nodes:" << nP;
  for (int i = 0; i < nP; ++i) {
    const QDomNode qNodeP = qListP.at(i);
    qDebug() << "node <p> #" << i;
    qDebug() << "node.toElement().text(): " << qNodeP.toElement().text().toUtf8();
    for (QDomNode qNode = qNodeP.firstChild(); !qNode.isNull(); qNode = qNode.nextSibling()) {
      qDebug() << toString(qNode.nodeType());
      switch (qNode.nodeType()) {
        case QDomNode::TextNode:
          qDebug() << qNode.toText().data().toUtf8();
          break;
        case QDomNode::EntityReferenceNode:
          qDebug() << qNode.nodeName();
          break;
        default:; // rest of types left out to keep sample short
      }
    }
  }
  // done
  return 0;
}

我得到以下输出：

$ make && ./testQDomDocument
g++ -c -fno-keep-inline-dllexport -D_GNU_SOURCE -pipe -O2 -Wall -W -D_REENTRANT -DQT_NO_DEBUG -DQT_GUI_LIB -DQT_XML_LIB -DQT_CORE_LIB -I. -isystem /usr/include/qt5 -isystem /usr/include/qt5/QtGui -isystem /usr/include/qt5/QtXml -isystem /usr/include/qt5/QtCore -I. -I/usr/lib/qt5/mkspecs/cygwin-g++ -o testQDomDocument.o testQDomDocument.cc
g++  -o testQDomDocument.exe testQDomDocument.o   -lQt5Gui -lQt5Xml -lQt5Core -lGL -lpthread 
Number of found <p> nodes: 1
node <p> # 0
node.toElement().text():  "Of course, \xE2\x80\x9CJason.\xE2\x80\x9D My thoughts, exactly."
QDomNode::TextNode
"Of course, \xE2\x80\x9CJason.\xE2\x80\x9D My thoughts, exactly."

$

等等！现在，<p> 中只有一个子节点，包含编码为 NCR 的引号的完整文本。

不过，\xE2\x80\x9C 和 \xE2\x80\x9D 的引号输出让我有点不确定。（请注意，我在调试输出中添加了.toUtf8()，因为我之前得到了? 和?。）

UTF-8 encoding table and Unicode characters 的简短检查让我确信这些 UTF-8 字节序列是正确的。
但是为什么要逃跑呢？
我的bash 的LANG 设置错误？

$ ./testQDomDocument 2>&1 | hexdump -C
00000000  4e 75 6d 62 65 72 20 6f  66 20 66 6f 75 6e 64 20  |Number of found |
00000010  3c 70 3e 20 6e 6f 64 65  73 3a 20 31 0a 6e 6f 64  |<p> nodes: 1.nod|
00000020  65 20 3c 70 3e 20 23 20  30 0a 6e 6f 64 65 2e 74  |e <p> # 0.node.t|
00000030  6f 45 6c 65 6d 65 6e 74  28 29 2e 74 65 78 74 28  |oElement().text(|
00000040  29 3a 20 20 22 4f 66 20  63 6f 75 72 73 65 2c 20  |):  "Of course, |
00000050  5c 78 45 32 5c 78 38 30  5c 78 39 43 4a 61 73 6f  |\xE2\x80\x9CJaso|
00000060  6e 2e 5c 78 45 32 5c 78  38 30 5c 78 39 44 20 4d  |n.\xE2\x80\x9D M|
00000070  79 20 74 68 6f 75 67 68  74 73 2c 20 65 78 61 63  |y thoughts, exac|
00000080  74 6c 79 2e 22 0a 51 44  6f 6d 4e 6f 64 65 3a 3a  |tly.".QDomNode::|
00000090  54 65 78 74 4e 6f 64 65  0a 22 4f 66 20 63 6f 75  |TextNode."Of cou|
000000a0  72 73 65 2c 20 5c 78 45  32 5c 78 38 30 5c 78 39  |rse, \xE2\x80\x9|
000000b0  43 4a 61 73 6f 6e 2e 5c  78 45 32 5c 78 38 30 5c  |CJason.\xE2\x80\|
000000c0  78 39 44 20 4d 79 20 74  68 6f 75 67 68 74 73 2c  |x9D My thoughts,|
000000d0  20 65 78 61 63 74 6c 79  2e 22 0a                 | exactly.".|
000000db

$

啊哈。这似乎是由qDebug() 引起的，它转义了值为 128 及以上的所有字节。

【讨论】：

什么是热心的回答。谢谢！

【解决方案2】：

    QTextDocument text;
    text.setHtml("&lt;&gt;&quot;");
    qDebug() << text.toPlainText();

我找到了这种方式，至少我不必硬编码来替换每个转义的 html 字符。

【讨论】：