【发布时间】:2013-10-19 09:18:17
【问题描述】:
我已经在我的服务器上安装了Tor + Privoxy,它们运行良好! (已测试)。
但是现在当我尝试使用urllib2 (python) 来抓取谷歌购物结果时,当然使用代理,我总是被谷歌阻止(有时是 503 错误,有时是 403 错误)。所以有人有任何解决方案可以帮助我避免这个问题吗?将不胜感激!
我正在使用的源代码:
_HEADERS = {
'User-Agent': 'Mozilla/5.0',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Encoding': 'deflate',
'Connection': 'close',
'DNT': '1'
}
request = urllib2.Request("https://www.google.com/#q=iphone+5&tbm=shop", headers=self._HEADERS)
proxy_support = urllib2.ProxyHandler({"http" : "127.0.0.1:8118"})
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener(opener)
try:
response = urllib2.urlopen(request)
html = response.read()
print html
except urllib2.HTTPError as e:
print e.code
print e.reason
注意:当我不使用代理时,它可以正常工作!
【问题讨论】:
-
正如人们在这里指出的那样,谷歌正在阻止 Tor,因为它被很多人使用。抓取的话题在这里讨论:stackoverflow.com/questions/22657548/…