【发布时间】:2019-04-14 12:55:50
【问题描述】:
我创建了一个爬虫,正在观看一些在线视频。它从网站上抓取个人资料网址。我想将其扩展到 scrape 数据,如地址、姓名、电话、网站 url 从每个被抓取的个人资料 url 中。
我正在考虑创建分离刮板。一种用于抓取 Profile url。第二个从抓取的第一个 url 中抓取数据。
还有其他解决办法吗?
这是我的抓取配置文件网址的蜘蛛。
# -*- coding: utf-8 -*-
import scrapy
from ..items import ...scraperItem
class SpiderSpider(scrapy.Spider):
name = 'spider'
start_urls = ['https:// ...']
page_number = 15
def parse(self, response):
items=...scraperItem()
..._url=response.css('a.header-5.text-unbold ::attr(href)').extract_first()
items['..._url']= ..._url
yield items
next_page = 'https:/...'+str(...SpiderSpider.page_number)
if ...SpiderSpider.page_number <= 150:
...SpiderSpider.page_number += 15
yield response.follow(next_page, callback = self.parse)
【问题讨论】: