【发布时间】:2015-02-21 12:43:44
【问题描述】:
与往常一样,我经常遇到问题,并且我已经彻底寻找当前问题的答案,但发现自己不知所措。以下是我搜索过的一些地方: - How to fix httplib.BadStatusLine exception? - Python httplib2 Handling Exceptions - python http status code
我的问题如下。我创建了一个蜘蛛并想抓取不同的网址。当我独立抓取每个网址时,一切正常。但是,当我尝试同时抓取两者时,出现以下错误:httplib.BadStatusLine: ''
我遵循了我阅读的一些建议(请参阅上面提到的链接)并且可以打印每个请求的 response.status 工作,但 response.url 不打印并且抛出错误。 (我只打印这两个语句来尝试识别错误的来源)。
我希望这很清楚。
我正在使用 scrapy 和 selenium
class PeoplePage(Spider):
name = "peopleProfile"
allowed_domains = ["blah.com"]
handle_httpstatus_list = [200, 404]
start_urls = [
"url1",
"url2"
]
def __init__(self):
self.driver = webdriver.Firefox()
def parse(self, response):
print response.status
print '???????????????????????????????????'
if response.status == 200:
self.driver.implicitly_wait(5)
self.driver.get(response.url)
print response.url
print '!!!!!!!!!!!!!!!!!!!!'
# DO STUFF
self.driver.close()
【问题讨论】: