【发布时间】:2013-12-22 12:26:09
【问题描述】:
我有一个 3 级网站,我想抓取并解析来自 2 级和 3 级的链接。问题是在第 2 级有一个 javascript 分页,它为每个页面提供不同的链接(总共 5 页) .
示例: 级别 1:主菜单(我使用 SgmlLinkExtractor catid=22767 提取类别的链接) 级别 2:有我想解析的链接,但也有 javascript 分页,我需要从中提取其余链接(即 catid=22767&page1=2) 第 3 级:对于上述步骤的每个链接,我都想解析响应。
该网站是 (http://www.ethnos.gr/) level2是(summary.asp?catid=22768) level3是我要解析的文章页面(article.asp?catid=22768&subid=2&pubid=63929343)
问题是:对于从第一级提取的每个链接,我如何创建一个循环并构造所有 5 个链接,然后在第二级使用 SgmlLinkExtractor 来跟踪这些链接?
【问题讨论】:
标签: javascript python pagination web-crawler scrapy