【发布时间】:2021-04-23 18:47:11
【问题描述】:
当在 Python 中使用 requests 库来提取给定 URL 的 HTML 时,例如。如下:
import requests
temp = requests.get(URL)
HTML = temp.text
对于某些 URL,它会被 Nginx 禁止,只返回以下 HTML:
<html>
<head><title>403 Forbidden</title></head>
<body>
<center><h1>403 Forbidden</h1></center>
<hr><center>nginx</center>
</body>
</html>
但是,对于这些 URL,如果我在任何网络浏览器中查看它们,我可以查看网页而不会出现任何 403 禁止错误。
一些示例网页就是这种情况:
URL = http://socialmarketingwriting.com/complete-guide-successful-social-media-manager/
URL = https://rjmccollam.com/podcast/3/
在这些情况下有什么办法可以避免 403 禁止错误?
【问题讨论】:
-
一些网站需要某种形式的标题才能正常工作。我怀疑一个简单的
User-Agent标头可以解决您的问题。查看documentation 或任何其他在线资源了解更多信息 -
看起来是问题所在
-
@ZhouW 我的回答对你有帮助吗?
标签: nginx python-requests