案例:
网易新闻的爬取:
爬取的内容为一下4大板块中的新闻内容
爬取:
特点:
动态加载数据 ,用 selenium
1. 创建项目
scrapy startproject wy
2. 创建爬虫
scrapy genspider wangyi www.wangyi.com
撰写爬虫
1. 获取板块url
import scrapy class WangyiSpider(scrapy.Spider): name = 'wangyi' # allowed_domains = ['www.wangyi.com'] start_urls = ['https://news.163.com/'] def parse(self, response): # 获取4大板块的url 国内、国际、军事、航空 li_list = response.xpath("//div[@class='ns_area list']/ul/li") item_list =[] for li in li_list: url = li.xpath("./a/@href").extract_first() title = li.xpath('./a/text()').extract_first().strip() # 过滤出 国内、国际、军事、航空 if title in ['国内','国际','军事','航空']: item = {} item['title'] = title item['url'] = url print(item)