【发布时间】:2015-01-19 11:49:46
【问题描述】:
我定义了两个蜘蛛,它们执行以下操作:
蜘蛛甲:
- 访问主页。
- 从页面中提取所有链接并将它们存储在一个文本文件中。
这是必要的,因为主页上有一个更多结果按钮,该按钮会生成指向不同产品的更多链接。
蜘蛛 B:
打开文本文件。
抓取各个页面并保存信息。
我正在尝试将两者结合起来并创建一个crawl-spider。
首页的URL结构类似:
http://www.example.com
各个页面的 URL 结构类似于:
http://www.example.com/Home/Detail?id=some-random-number
文本文件包含将被第二个蜘蛛抓取的此类 URL 的列表。
我的问题:
如何将两个蜘蛛组合成一个蜘蛛来完成完整的抓取?
【问题讨论】:
-
与您在 3 小时前提出的另一个问题有什么不同? stackoverflow.com/questions/28020360/…
-
@aberna 我从一个单独的 python 脚本调用了两个蜘蛛。现在我正在尝试将它们结合起来。这基本上意味着我不必单独调用它们。
-
与其将链接写入文件,不如再次将它们作为请求发送?
-
怎么做?任何其他问题的示例说明相同?
-
@Udy 有没有相同的例子?
标签: python web-scraping scrapy