【发布时间】:2014-02-15 21:15:03
【问题描述】:
我正在抓取大量 URL,并且想知道是否可以让 scrapy 不解析带有 'meta name="robots" content="noindex"' 的页面? 查看此处列出的拒绝规则http://doc.scrapy.org/en/latest/topics/link-extractors.html 看起来拒绝规则仅适用于 URL。你能让 scrapy 忽略 xpath 吗?
from scrapy.selector import HtmlXPathSelector
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from wallspider.items import Website
class Spider(CrawlSpider):
name = "browsetest"
allowed_domains = ["www.mydomain.com"]
start_urls = ["http://www.mydomain.com",]
rules = (
Rule(SgmlLinkExtractor(allow=('/browse/')), callback="parse_items", follow= True),
Rule(SgmlLinkExtractor(allow=(),unique=True,deny=('/[1-9]$', '(bti=)[1-9]+(?:\.[1-9]*)?', '(sort_by=)[a-zA-Z]', '(sort_by=)[1-9]+(?:\.[1-9]*)?', '(ic=32_)[1-9]+(?:\.[1-9]*)?', '(ic=60_)[0-9]+(?:\.[0-9]*)?', '(search_sort=)[1-9]+(?:\.[1-9]*)?', 'browse-ng.do\?', '/page/', '/ip/', 'out\+value', 'fn=', 'customer_rating', 'special_offers', 'search_sort=&', 'facet=' ))),
)
def parse_items(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//html')
items = []
for site in sites:
item = Website()
item['url'] = response.url
item['canonical'] = site.xpath('//head/link[@rel="canonical"]/@href').extract()
item['robots'] = site.select('//meta[@name="robots"]/@content').extract()
items.append(item)
return items
【问题讨论】:
-
您想跳过检索这些页面吗?如果是这样,那将是不可能的,因为要查找元机器人,您必须检索页面。
-
抱歉,我已经改写了我的问题。是否可以让它不解析包含 'meta name="robots" content="noindex"' 的 URL?
-
你不想跟随没有索引的页面的链接吗?在这种情况下,您可以在 noindex 存在时跳过响应。你能分享你的蜘蛛的简化版本吗?你在使用
CrawlSpider类吗? -
感谢@Rho 出于某种原因,它没有正确格式化我的“代码”。作为一种解决方法,我决定识别其中没有索引的页面
标签: python web-crawler scrapy