【发布时间】:2018-04-08 08:30:28
【问题描述】:
我已经在 python 中结合 selenium 编写了一个脚本,以从网页中获取一个文本块,在该网页中我的爬虫是否通过代理发送请求。
例如:如果请求不是通过代理发送的,那么控制台中应该出现的文本类似于'This request appears NOT to have come via a proxy.', 'The request appears to have originated from ip address [my_ip_address]',这就是我所拥有的。
如何通过代理运行我的爬虫?提前致谢。
我尝试过的脚本:
from selenium import webdriver
proxies = {
'http': 'http://163.172.27.213:3128',
'https': 'https://163.172.175.210:3128'
}
chrome_options = webdriver.ChromeOptions()
proxy_arg = ';'.join(['{}={}'.format(k, v) for k, v in proxies.items()])
chrome_options.add_argument('--proxy-server="{}"'.format(proxy_arg))
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get('http://www.lagado.com/proxy-test')
items = [item.text for item in driver.find_elements_by_css_selector(".main-panel p")[:2]]
print(items)
driver.quit()
【问题讨论】:
标签: python python-3.x selenium web-scraping proxy