【发布时间】:2017-07-19 18:54:50
【问题描述】:
我目前正在尝试使用 scrapy 创建一个小型网络抓取原型。 我当前的问题与链接提取和关注有关。
我正在尝试制作scrapy探索页面并查找页面链接(暂时不是图像和其他内容),但我不知道如何正确设置参数。
这是我正在使用的蜘蛛:
class DefaultSpider(CrawlSpider):
name = "default"
session_id = -1
rules = [Rule(LinkExtractor(allow=()),callback='parse', follow=True)]
def start_requests(self):
#not relevent code that gives an URL list to be scrawled
for url in listurl:
#make scrapy follow only the current domain url.
self.rules[0].allow=url
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
page = Website(response.url,response.text)
DBInterface.store(page)
蜘蛛似乎没有在页面中找到任何链接。我认为我没有以正确的方式做到这一点。我尝试将另一个函数作为回调而不是解析方法。 (也改变规则回调参数)
def processlinks (self,response)
page = Website(response.url,response.text)
DBInterface.store(page)
编辑:更新代码+标题以便正确理解..
【问题讨论】:
标签: html hyperlink web-scraping scrapy web-crawler