如何使用 XPath 在标头中获取内容答案

【问题标题】：How to get content in a header using XPath如何使用 XPath 在标头中获取内容
【发布时间】：2013-09-13 13:17:24
【问题描述】：

我正在使用 Yahoo Pipes 从网页中提取内容。出于某种原因，开发人员将文章内容放在了<h2> 标签中，我很难从那里获取内容。

内容如下：

<div id="divid"><h2>
<p>Some content<p>
<p>Some more content</p>
</h2>
<!-- some more stuff here -->
</div>

当我使用 //div[@id='divid'] 时，我可以获取整个 <div> 块的内容，但是当我尝试 //div[@id='divid']//h2 或 //div[@id='divid']//h2/text() 时，我什么也得不到。

我做错了什么，如何正确获取<h2> 标签之间的内容？

您可能需要检查实际的web page。

【问题讨论】：

【解决方案1】：

也许您缺少的是勾选 Use HTML5 parser 选项。没有它就无法匹配//h2。

该页面是一项相当出色的工作。文本中充满了带有内联样式的<span...> 标签。我创建了一个示例管道以使页面变得有意义：

【讨论】：