【发布时间】:2022-08-14 07:06:14
【问题描述】:
我开始学习scrapy,我想废弃一个sitemap.xml以废弃其中的所有页面,然后从站点地图中废弃页面内的特定链接。
例如:
在我的站点地图上,我有 link1。我转到 link1 并在页面内部,我想废弃一个名为 linkA 的特定链接以获取此链接的内容页面。
首先,我定义了正则表达式规则parse_step1.它允许我从站点地图中获取特定的网址。它运作良好。
然后,我不知道如何告诉我的刮刀\"从链接中抓取页面,找到一个特定的url,然后抓取这个特定url的页面内容\".
我尝试添加由正则表达式验证的第二条规则,但我无法使其工作。
class SiteSpider(SitemapSpider):
name = \'site\'
allowed_domains = [\'domain.fr\']
# generate_start_urls()
sitemap_urls = [\"https://domain.fr/mainsitemap.xml\"]
sitemap_rules = [(\'^.*\\/([a-zA-Z]{2})\\/\\/?.*\', \'parse_step1\'),
(\'.*\\/[0-9]{2}\', \'parse_step2\')
]
请问有什么见解吗?
谢谢
标签: python web-scraping scrapy