【发布时间】:2021-12-30 07:29:09
【问题描述】:
我正在用 Python 练习我的网页抓取技巧。我想从房地产网站www.immobilier.ch 下载图片。我在其他网站上成功了,但是这次我想保存 URL 的内容,保存后我在文件中看到了这个:
<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html><head>
<title>403 Forbidden</title>
</head><body>
<h1>Forbidden</h1>
<p>You don't have permission to access this resource.</p>
</body></html>
有谁知道避免它的方法吗?据我了解,该网站将我识别为机器人。但奇怪的是我可以刮除图片之外的所有其他内容。我使用 Requests 库来保存图片,使用 OS 将它们保存在正确的路径中,并使用 Selenium webdriver (Chrome)。这是我的代码示例:
image_url = driver.find_element_by_class_name("im__col__content").find_element_by_tag_name("img").get_attribute("src") #comment
path = "C:/Users/potek/Jupyter_projects/APARTMENTS"
with open(os.path.join(path, "Immobilier"+str(time.time())+".jpg"), "wb") as f:
f.write(requests.get(i).content)
【问题讨论】:
-
如果我的回答解决了你的问题,请接受,否则留下更多问题/细节的评论
标签: python image selenium-webdriver web-scraping python-requests