【发布时间】:2012-06-26 10:46:52
【问题描述】:
如我们所见:
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//ul/li')
items = []
for site in sites:
item = Website()
item['name'] = site.select('a/text()').extract()
item['url'] = site.select('//a[contains(@href, "http")]/@href').extract()
item['description'] = site.select('text()').extract()
items.append(item)
return items
scrapy 只是获取一个页面响应,并在页面响应中找到 url。我认为这只是表面爬行!!
但我想要更多具有定义深度的网址。
我能做些什么来实现它??
谢谢!!
【问题讨论】: