案例:

网易新闻的爬取:

https://news.163.com/

爬取的内容为一下4大板块中的新闻内容

selenium、UA池、ip池、scrapy-redis的综合应用案例

爬取:

selenium、UA池、ip池、scrapy-redis的综合应用案例

 

特点:

动态加载数据  ,用 selenium

 

1. 创建项目

scrapy startproject wy

2. 创建爬虫

scrapy genspider wangyi www.wangyi.com

撰写爬虫

1. 获取板块url

selenium、UA池、ip池、scrapy-redis的综合应用案例

import scrapy

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    # allowed_domains = ['www.wangyi.com']
    start_urls = ['https://news.163.com/']

    def parse(self, response):

        # 获取4大板块的url  国内、国际、军事、航空

        li_list = response.xpath("//div[@class='ns_area list']/ul/li")
        item_list =[]
        for li in li_list:

            url = li.xpath("./a/@href").extract_first()
            title = li.xpath('./a/text()').extract_first().strip()
            # 过滤出  国内、国际、军事、航空
            if title in ['国内','国际','军事','航空']:
                item = {}
                item['title'] = title
                item['url'] = url

                print(item)
1.过滤出想要板块的url和板块名爬虫

相关文章: