【发布时间】:2016-07-13 03:13:03
【问题描述】:
我正在尝试获取此页面的 html:
url = 'http://www.metacritic.com/movie/oslo-august-31st/critic-reviews'
我正在尝试使用请求来获取它:
oslo = requests.get(url)
但他们似乎知道我正在以这种方式访问它以及当我打开它时 我得到的文件:
\n\n\n403 Forbidden\n\n\nError 403 Forbidden
\nForbidden
\nGuru Meditation:
\nXID: 961167012
\n\n
清漆缓存服务器
\n\n\n除了手动复制和粘贴每个页面中的每个 html 之外,还有其他方法可以访问 html 吗?
【问题讨论】:
-
一些网站查看“用户代理”标头或其他标头,以判断请求是否来自网络爬虫。如果某些网站认为您是爬虫,他们会拒绝您的请求。你要发送什么标头?
标签: python html url web-scraping python-requests