【问题标题】:How to get content in a header using XPath如何使用 XPath 在标头中获取内容
【发布时间】:2013-09-13 13:17:24
【问题描述】:

我正在使用 Yahoo Pipes 从网页中提取内容。出于某种原因,开发人员将文章内容放在了<h2> 标签中,我很难从那里获取内容。

内容如下:

<div id="divid"><h2>
<p>Some content<p>
<p>Some more content</p>
</h2>
<!-- some more stuff here -->
</div>

当我使用 //div[@id='divid'] 时,我可以获取整个 &lt;div&gt; 块的内容,但是当我尝试 //div[@id='divid']//h2//div[@id='divid']//h2/text() 时,我什么也得不到。

我做错了什么,如何正确获取&lt;h2&gt; 标签之间的内容?

您可能需要检查实际的web page

【问题讨论】:

    标签: html xpath yahoo-pipes


    【解决方案1】:

    也许您缺少的是勾选 Use HTML5 parser 选项。没有它就无法匹配//h2

    该页面是一项相当出色的工作。文本中充满了带有内联样式的&lt;span...&gt; 标签。我创建了一个示例管道以使页面变得有意义:

    http://pipes.yahoo.com/pipes/pipe.info?_id=cf46006f77bdac4a6e57785c78cd0b2b

    【讨论】:

    • 是的,它是 HTML5 解析器选项。谢谢!
    猜你喜欢
    • 2016-02-18
    • 1970-01-01
    • 1970-01-01
    • 2021-11-17
    • 1970-01-01
    • 2021-08-22
    • 2015-07-20
    • 2018-06-07
    • 1970-01-01
    相关资源
    最近更新 更多