【发布时间】:2022-01-25 19:22:54
【问题描述】:
我有这样的结构
<p>File name</p>
<a href="https://somelink.pdf">Download</a>
我需要使用 CSS 和 XPath 捕获链接 a 及其名称 p。我正在尝试执行以下操作,首先我使用 CSS 选择器找到所有 href 值以 .pdf (a[href$=".pdf"]) 结尾的文件:
for i in response.css('a[href$=".pdf"]'):
link = i.css('::attr("href")').get()
name = i.xpath(?????????)
print(name, link)
如何使用 XPath 捕获 p 元素中的文本?
【问题讨论】:
标签: html xml web-scraping xpath scrapy