【发布时间】:2020-05-06 02:01:20
【问题描述】:
我正在尝试从 amazon.in 中提取产品的 url。来自源代码的 a-tag 中的 href 属性如下所示:
href="/Parachute-Coconut-Oil-600-Free/dp/B081WSB91C/ref=sr_1_49?dchild=1&fpw=pantry&fst=as%3Aoff&qid=1588693187&s=pantry&sr=8-49&srs=9574332031&swrs=789D2F4EC1B25821250A55BFCB953F03"
Scrapy 提取的是:
/Parachute-Coconut-Oil-Bottle-600ml/dp/B071FB2ZVT?dchild=1
我使用了以下 xpath:
//div[@class="a-section a-spacing-none a-spacing-top-small"]//a[@class="a-link-normal a-text-normal"]/@href
如何使用 Scrapy 提取预期的 url?
【问题讨论】:
标签: python scrapy href screen-scraping