【发布时间】:2020-06-07 09:22:21
【问题描述】:
我正在尝试从https://raw.githubusercontent.com/denisemauldin/immer/master/index.html 中提取表值,但它什么也没返回。我做错了什么还是其他什么?
from lxml import html
import requests
page=requests.get('https://raw.githubusercontent.com/denisemauldin/immer/master/index.html')
tree=html.fromstring(page.content)
print(tree.xpath('//table'))
它返回 []
【问题讨论】:
-
如果使用正确的引号,这确实返回一个表格元素。
-
@MathiasMüller 其返回空
-
我得到了这个
table元素。 -
XPath 表达式无法按预期工作的第一个原因是您忽略了元素位于命名空间(在本例中为 XHTML 命名空间)中的事实。因为太多人落入这个陷阱,所以我将它作为一个副本关闭;搜索“XPath 默认命名空间”可以找到数百个类似的问题。
标签: python xpath web-scraping