【发布时间】:2014-03-11 18:45:20
【问题描述】:
http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-items 的 CONCURRENT_ITEMS 部分将其定义为:
要处理的最大并发项目数(每个响应) 在项目处理器(也称为项目管道)中并行。
这让我很困惑。这是否意味着发送到管道的项目是并行处理的,即。真的是多进程的吗?
假设我的解析涉及很多 lxml 查询和 xpath'ing。我应该在蜘蛛的 parse 方法本身中执行它们,还是应该发送一个包含整个响应的 Item 并让自定义管道类通过解析响应主体来填充 Item 的字段?
【问题讨论】:
标签: python web-scraping screen-scraping scrapy