【发布时间】:2017-02-26 15:20:46
【问题描述】:
当我尝试抓取某个网站(同时使用蜘蛛和 shell)时,我收到以下错误:
twisted.web._newclient.ResponseNeverReceived: [<twisted.python.failure.Failure twisted.internet.error.ConnectionLost: Connection to the other side was lost in a non-clean fashion.>]
我发现当没有设置用户代理时会发生这种情况。 但是手动设置后,还是出现同样的错误。
你可以在这里看到scrapy shell的全部输出:http://pastebin.com/ZFJZ2UXe
注意事项:
我没有代理,我可以通过scrapy shell访问其他网站而没有问题。我也可以使用 Chrome 访问该网站,所以这不是网络或连接问题。
也许有人可以给我一个提示,我该如何解决这个问题?
【问题讨论】:
-
那么问题是什么?只需设置
user-agent并继续抓取...远程网站可能被设置为不响应任何没有user-agent的请求 -
正如我所说,我在设置用户代理时遇到了同样的错误。我不知道下一步该往哪里看。我将编辑答案,以便更好地理解。 (另外,如果你查看 pastebin 链接,你可以看到,我设置了一个用户代理)
-
查看我的回答...您必须连同请求一起发送
headers。
标签: web-scraping scrapy scrapy-spider scrapy-shell