【发布时间】:2014-01-14 12:59:43
【问题描述】:
这个问题必然有两种形式,因为我不知道更好的解决方案。
我正在抓取的网站经常将我踢到重定向的“用户被阻止”页面,但频率(按请求/时间)似乎是随机的,而且他们似乎有一个黑名单阻止了我的许多“开放”代理列表'正在通过 Proxymesh 使用。所以……
当 Scrapy 收到对其请求的“重定向”(例如
DEBUG: Redirecting (302) to (GET http://.../you_got_blocked.aspx) from (GET http://.../page-544.htm))时,它会继续尝试访问 page-544.htm,还是会继续访问 page-545.htm 并永远在 page-544.htm 上丢失?如果它“忘记”(或将其视为已访问),有没有办法告诉它继续重试该页面? (如果它自然而然地做到了,那就好,很高兴知道......)什么是最有效的解决方案?
(a) 我目前在做什么:通过 http_proxy 环境变量使用 proxymesh 旋转代理,这似乎经常旋转代理,至少可以相当定期地通过目标站点的重定向。 (缺点:开放代理的 ping 速度很慢,只有这么多,proxymesh 最终会开始向我收取超过 10 场演出的每场演出费用,我只需要它们在重定向时旋转,我不需要'不知道它们旋转的频率或触发器,以及以上内容:我不知道我被重定向的页面是否正在被 Scrapy 重新排队......)(如果 Proxymesh 在每个请求上旋转,那么我愿意支付合理的费用。)
(b) 使用中间件在每次重定向时重新选择一个新代理是否有意义(并且简单)?对于每一个请求呢?通过 TOR 或 Proxifier 之类的其他东西会更有意义吗?如果这相对简单,我将如何设置它?我在几个地方读过类似的东西,但大多数都过时了,链接断开或废弃的 Scrapy 命令。
作为参考,我目前确实为 Proxy Mesh 设置了中间件(是的,我使用的是 http_proxy 环境变量,但在不遇到麻烦时我喜欢冗余)。所以这就是我目前所拥有的,以防万一:
class ProxyMiddleware(object):
def process_request(self, request, spider):
request.meta['proxy'] = "http://open.proxymesh.com:[port number]"
proxy_user_pass = "username:password"
encoded_user_pass = base64.encodestring(proxy_user_pass)
request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
【问题讨论】:
标签: python redirect proxy scrapy http-proxy