【发布时间】:2011-12-23 00:52:47
【问题描述】:
我需要从 html 文档中提取所有链接,其中包含文本作为内部元素,而不是对图像的引用。基本上我想为 doc.select("//a/text()") 返回任何内容的树中的所有元素执行 doc.select("//a/attribute::href") 。谢谢!
【问题讨论】:
标签: xpath
我需要从 html 文档中提取所有链接,其中包含文本作为内部元素,而不是对图像的引用。基本上我想为 doc.select("//a/text()") 返回任何内容的树中的所有元素执行 doc.select("//a/attribute::href") 。谢谢!
【问题讨论】:
标签: xpath
您可以在 XPath 中将条件写在方括号中的谓词中,例如//a[text()]/@href 选择至少具有一个文本节点子节点的所有链接 (a) 元素的 href 属性。或者,如果您想确保链接中没有 img 子元素,您可以使用例如//a[not(img)]/@href.
【讨论】: