无法使用 Scrapy 抓取某些链接答案

【问题标题】：Can't scrape some links using Scrapy无法使用 Scrapy 抓取某些链接
【发布时间】：2019-03-23 22:55:53
【问题描述】：

我遇到了一个奇怪的错误。我无法抓取链接https://www.example.com/2/

但是，我可以抓取链接https://www.example.com/922/

P.S.我没有使用真实链接，因为我的工作不允许。对不起。

【问题讨论】：

标签： python python-2.7 web-scraping scrapy screen-scraping

【解决方案1】：

当我尝试使用命令scrapy view https://www.example.com/2/ 对其进行调试时，它会显示我期望的正确 HTML。当我通过 Chrome 检查器检查 URL 时，结果发现它给出了正确的 HTML，但给出了错误 500 状态而不是 200。我在我的蜘蛛中使用 handle_httpstatus_list = [500] 解决了它。

【讨论】：

500 仅表示网站存在内部问题，无法提供内容。将 500 添加到句柄状态列表将只允许您解析那些最有可能为空的状态 500 页面。
在这种情况下，它不为空。尝试运行scrapy view https://www.websiteclosers.com/website-view/website/2/，你会看到。是的，这很奇怪。我知道。我不知道他们的服务器出了什么问题。