【发布时间】:2021-09-21 09:08:14
【问题描述】:
这是一个快速的模拟代码。我想要得到的是一个字符向量,其中包含每个 p 节点的文本内容,其后代 a 具有其属性 href = "value1"。
<doc>
<div class="intervention">
<p>
<a></a>
<b>
<a href="value1">xxx</a>
</b>
text1
</p>
<p>
<a></a>
<b>
<a href="value2">xxx</a>
</b>
text2
</p>
<p>
<a></a>
<b>
<a href="value1">xxx</a>
</b>
text3
</p>
</div>
<div class="intervention">
<p>
<a></a>
<b>
<a href="value2">xxx</a>
</b>
text4
</p>
<p>
<a></a>
<b>
<a href="value1">xxx</a>
</b>
text5
</p>
<p>
<a></a>
<b>
<a href="value1">xxx</a>
</b>
text6
</p>
</div>
</doc>
也就是说,我想得到这个向量:
c("xxxtext1","xxxtext3","xxxtext5","xxxtext6")
您能帮我找到合适的 XPath 吗?到目前为止,我已经找到了这个给我 p 节点中所有文本内容的内容,但是我无法让它根据 a 的 href 值进行过滤。
"//div[@class='intervention']//*[not(self::script)]"
非常感谢您的帮助!
【问题讨论】:
标签: r web-scraping xpath