【发布时间】:2021-12-04 06:39:13
【问题描述】:
我正在尝试抓取网站https://www.rightmove.co.uk/properties/105717104#/?channel=RES_NEW 但我得到 (410) 错误
INFO:忽略响应 https://www.rightmove.co.uk/properties/105717104>:HTTP 状态代码未处理或不允许
我只是想通过“该房产已被代理删除”页面上的通知查找已售出的房产。
我知道该网站没有阻止我,因为我可以使用 scrappy shell 获取数据,并且查看(响应)也可以正常工作,我可以使用网络浏览器直接访问相同的 URL,因此 410 不会没道理我也可以从同一个域爬取页面, (ie) 没有通知“此属性已被代理删除”的页面。
任何帮助将不胜感激。
【问题讨论】:
标签: web-scraping scrapy scrapy-splash