【发布时间】:2014-07-22 19:15:44
【问题描述】:
我在 python 中使用 lxml 实现来进行 HTML 和 XML 解析。 设置解析器,如
parser = lxml.etree.HTMLParser()
并从 HTML 源代码返回树(字符串)
tree = lxml.etree.fromstring(html, parser).getroottree() # Returns a XML tree
根据 lxml 文档,这应该返回一个 DOM 树 (XML)
我想找到某些带有“a”、“div”、“span”等标签的元素。
如何使用标签名称获取所有可能元素的 XPath?
编辑:我实际上是在开发一个 AJAX 爬虫,所以我需要 Selenium 来点击某些可以改变 DOM 状态的元素。我将 HTML 源代码发送到 lxml 进行分析。
例如,采用列表中的默认元素,如
["a", "button", "li", "nav", "ol", "span", "ul", "header", "footer", "section"]
我需要获取上述元素的 xpath,以便我可以将它们传递给 Selenium 以进行点击和其他事件触发器。
【问题讨论】:
-
您能否提供一个简单的示例:输入(html 片段)和所需的输出?谢谢。
标签: python dom selenium xpath lxml