【发布时间】:2021-02-12 08:53:42
【问题描述】:
我正在尝试从 autotrader 页面抓取数据,并且我设法获取了指向该页面上每个报价的链接,但是当我尝试从每个报价中获取数据时,即使我使用的是标题,我也会收到 403 请求状态. 我还能做些什么来克服它?
headers = {"User Agent": 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/85.0.4183.121 Safari/537.36'}
page = requests.get("https://www.autotrader.co.uk/car-details/202010145012219", headers=headers)
print(page.status_code) # 403 forbidden
content_of_page = page.content
soup = bs4.BeautifulSoup(content_of_page, 'lxml')
title = soup.find('h1', {'class': 'advert-heading__title atc-type-insignia atc-type-insignia--medium '})
print(title.text)
[对于处于相同位置的人:autotrader 使用 cloudflare 来保护每个“汽车详细信息”页面,因此我建议使用 selenium 为例]
【问题讨论】:
标签: python python-requests request-headers