【发布时间】:2019-07-23 17:10:01
【问题描述】:
我正在尝试从登录页面中提取 csrf 令牌。 我正在使用 lxml 库作为解析器。
s = requests.Session()
login_html = etree.fromstring(
s.get('https://www.uwkotinleuven.be/fr/login').text)
find = etree.XPath('//*[@id="login-form-2"]/input[3]')
print(find(login_html).value )
这是错误:
lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: link line 19 and head, line 46, column 24
我不确定错误是来自 XPath 查找器,还是来自发送的任何损坏的 HTML。
我应该更改解析,还是提供参数?是否有解析损坏的 HTML 的常规方法?
【问题讨论】:
标签: parsing web-scraping lxml