【发布时间】:2011-05-04 16:44:22
【问题描述】:
我有使用 Scrapy 框架编写的蜘蛛。我在让任何管道正常工作时遇到了一些麻烦。我的 pipelines.py 中有以下代码:
class FilePipeline(object):
def __init__(self):
self.file = open('items.txt', 'wb')
def process_item(self, item, spider):
line = item['title'] + '\n'
self.file.write(line)
return item
我的 CrawlSpider 子类有这条线来激活这个类的管道。
ITEM_PIPELINES = [
'event.pipelines.FilePipeline'
]
但是当我使用它运行它时
scrapy crawl my_spider
我得到一条线,上面写着
2010-11-03 20:24:06+0000 [scrapy] DEBUG: Enabled item pipelines:
没有管道(我认为这是日志记录应该输出它们的地方)。
我已尝试查看文档,但似乎没有完整项目的完整示例来查看我是否遗漏了任何内容。
对接下来要尝试什么有什么建议吗?或者去哪里寻找更多的文件?
【问题讨论】:
标签: python web-crawler pipeline scrapy scraper