【发布时间】:2015-01-30 08:02:42
【问题描述】:
我一直在广泛使用Scrapy web-scraping 框架,但是,最近我发现还有另一个名为pyspider 的框架/系统,根据它的 github 页面,它是新鲜的,积极开发的并且很受欢迎。
pyspider 的主页列出了几项开箱即用的支持:
具有脚本编辑器、任务监视器、项目管理器和结果查看器的强大 WebUI
支持 Javascript 页面!
任务优先级、重试、定期和 在索引页面中按年龄或标记重新抓取(如更新时间)
分布式架构
这些是Scrapy 本身不提供的东西,但是,在portia(用于Web UI)、scrapyjs(用于js 页面)和scrapyd(部署和通过 API 分发)。
真的pyspider 就可以代替所有这些工具吗?换句话说,pyspider 是 Scrapy 的直接替代品吗?如果没有,那么它涵盖了哪些用例?
我希望我没有越过“过于宽泛”或“基于意见”的界限。
【问题讨论】:
-
这非常接近基于意见的路线。我不确定我是否会考虑它。
-
@Amber 谢谢,我很担心。试图添加细节。 (至少比Is it worth learning Scrapy?更详细、更具体)。
-
@Amber 我想我已经得到了最好的答案。 Binux 是 pyspider 项目的发明者和维护者。希望这个帖子能成为那些对scrapy和pyspider之间的区别有疑问的人的起点。
-
@alecxe 鉴于您在 Scrapy 方面拥有更丰富的经验,希望能得到一份关于您在 pyspider 方面的经验的报告。
-
@chishaku 这是个好主意,我想有一天我会用我自己的观察和感受来提供答案。谢谢!
标签: python web-scraping scrapy web-crawler pyspider