【发布时间】:2016-03-04 01:48:43
【问题描述】:
我已经在一个 python 脚本中设置了我的爬虫:
import sys
import csv
import scrapy
from scrapy.http import FormRequest
from scrapy.crawler import CrawlerProcess
class MyItem(scrapy.Item):
test = scrapy.Field()
class Spider(scrapy.Spider):
start_urls = [
"blah.com",
]
def parse(self, response):
blahblah = MyItem()
# Some Code
yield blahblah
class crawler:
def start(self):
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
'LOG_LEVEL': 'INFO',
'FEED_FORMAT': 'csv',
'FEED_URI': 'Output.csv'
})
process.crawl(Spider)
process.start()
app = crawler()
app.start()
这是完美的工作。
现在如何添加一个scrapy中间件,例如
process_spider_exception(response, exception, spider)
在此脚本中并通过将其添加到 CrawlerProcess 设置来使用它?
【问题讨论】:
标签: python scrapy web-crawler