【问题标题】:Can't scrape some links using Scrapy无法使用 Scrapy 抓取某些链接
【发布时间】:2019-03-23 22:55:53
【问题描述】:

我遇到了一个奇怪的错误。我无法抓取链接https://www.example.com/2/

但是,我可以抓取链接https://www.example.com/922/

P.S.我没有使用真实链接,因为我的工作不允许。对不起。

【问题讨论】:

    标签: python python-2.7 web-scraping scrapy screen-scraping


    【解决方案1】:

    当我尝试使用命令scrapy view https://www.example.com/2/ 对其进行调试时,它会显示我期望的正确 HTML。当我通过 Chrome 检查器检查 URL 时,结果发现它给出了正确的 HTML,但给出了错误 500 状态而不是 200。我在我的蜘蛛中使用 handle_httpstatus_list = [500] 解决了它。

    【讨论】:

    • 500 仅表示网站存在内部问题,无法提供内容。将 500 添加到句柄状态列表将只允许您解析那些最有可能为空的状态 500 页面。
    • 在这种情况下,它不为空。尝试运行scrapy view https://www.websiteclosers.com/website-view/website/2/,你会看到。是的,这很奇怪。我知道。我不知道他们的服务器出了什么问题。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-01-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多