【发布时间】:2018-02-21 08:38:43
【问题描述】:
我正在提取一些 html 信息并使用 python 中的.xpath 方法对其进行查询。对于一个特定的应用程序,我想提取属于特定源行的所有元素。比如
with open(self.file_path, 'r') as f:
page = f.read()
tree = html.fromstring(page)
all = tree.xpath(r'/html/body//a')
print(all[5].sourceline)
以上产生的源代码行号为 14,其中包含以下源代码 html。
26) <a name="l26" style="background-color: #ffffff"> subroutine </a><a style="background-color: #ffcccc">AdjustParticleDiscretisation()</a>
然后如何使用源代码而不是传统的 xpath 查询来提取此 html 的所有内容?还是 xpath 有一些可以识别源代码的语法?
谢谢
【问题讨论】:
-
注:阴影内置
all。 -
我不明白你在说什么
标签: python html xml xpath lxml