【发布时间】:2019-05-12 23:27:57
【问题描述】:
所以我一直在使用 selenium 进行刮擦。但我想将所有代码更改为 Scrapy。我唯一不确定的是我正在使用多处理(python 库)来加快我的进程。我研究了很多,但我完全不明白。我找到了:Multiprocessing of Scrapy Spiders in Parallel Processes,但它对我没有帮助,因为它说可以用 Twisted 完成,但我还没有找到一个例子。
在其他论坛上,它说 Scrapy 可以与多处理一起使用。
最后一件事,scrapy 中的选项CONCURRENT_REQUESTS(设置)与多处理有一些联系吗?
【问题讨论】:
-
如果您需要更多帮助,您可以在这里评论,我会尽力提供帮助
-
我一直在一个脚本中处理我所有的蜘蛛,就是这样,实际上我并没有对数据进行大量处理,我只是获取数据并将其附加到文件中pandas(显然有一些像验证码这样的处理来获取数据)。那么,当您说“将获取信息的流程与使用该信息的流程分开”时,您是什么意思? ....还有一件事,我们可以用扭曲的方式做什么?有没有办法加快这个过程?