【问题标题】:xpath php - trouble with LIBXML_HTML_NOIMPLIEDxpath php - LIBXML_HTML_NOIMPLIED 的问题
【发布时间】:2020-10-24 12:24:38
【问题描述】:

我正在尝试查找文档中的所有 p 标签,如下所示:

$dom = new DOMDocument();
$html = '<p>First</p><p>Second</p><p>Third</p><h3>Test 2</h3><p>Fourth</p>';
$dom->loadHTML($html, LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);

$itens = [];
$xp = new DOMXPath($dom);

$res = $xp->query('//p');
foreach ($res as $item) {
    $itens[] = $item->nodeValue;
}

print_r($itens);

但是当 LIBXML_HTML_NOIMPLIED 开启时,它不能按预期工作。我明白了:

Array
(
    [0] => FirstSecondThirdTest 2Fourth
    [1] => Second
    [2] => Third
    [3] => Fourth
)

但我希望:

Array
(
    [0] => First
    [1] => Second
    [2] => Third
    [3] => Fourth
)

这里发生了什么?

【问题讨论】:

    标签: php dom xpath


    【解决方案1】:

    问题在于您的 HTML 实际上是一个文档片段,因为它没有单个根节点。 loadHTML() 尝试解决此问题,您可以查看是否这样做

    echo $dom->saveHTML();
    

    你得到

    <p>First<p>Second</p><p>Third</p><h3>Test 2</h3><p>Fourth</p></p>
    

    一个简单的解决方法是在加载之前向源添加一个基本标签(我使用&lt;div&gt;)...

    $dom->loadHTML("<div>$html</div>", LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD);
    

    这给了....

    Array
    (
        [0] => First
        [1] => Second
        [2] => Third
        [3] => Fourth
    )
    

    【讨论】:

    • 这方面有进展吗?
    猜你喜欢
    • 2010-10-07
    • 2011-02-21
    • 2010-12-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-03-31
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多