scrapy - 分布式爬虫

1.scrapy工作原理

1.1组件介绍

调度器(Scheduler)：

调度器实际上就是一个存取这待爬取URL的优先级队列，该队列集成过滤器及URL去重等功能

引擎(Scrapy Engine)：

整个scrapy框架的核心，用于各组件间的协调及通信。

下载器(Downloader)：

用于抓取和下载网页内容，并将网页返回给爬虫(建立在twisted之上)。

管道(Pipeline)：

负责处理爬虫从网页中抽出的实体，主要功能是实现实体(item)的持久化、验证实体的有效性，清除不需要的信息。当爬虫被解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

爬虫(spider)：

提取所需的网页数据，并结构化成实体(item)。

1.2 中间件

下载器中间件(Download Middleware)：

这是scrapy诸多中间件中最重要的中间件，其位于引擎和下载器之间，支持多个中间件串行运行。当引擎传递下载任务请求过程中，http请求前(process_request)，下载器中间件可以对请求进行处理，例如设置动态IP代理、更改UserAgent、增加或定义相关header信息，http请求后，传递响应到引擎的过程中(process_response)，下载器中间件可以对响应进行处理(例如gzip的解压等等)

爬虫中间件(Spider Middlewares)：

该中间件是介于引擎与爬虫之间的组件，我们可以自定义功能来处理发送给Spider的response以及spider产生的item和request

具体使用参考https://www.jianshu.com/p/4d8862522fa7

1.3 数据流传递过程

Scrapy中的数据流由执行引擎控制，其过程如下：

引擎从Spiders中获取到的最初的要爬取的请求(Requests)。
引擎安排请求(Requests)到调度器中，并向调度器请求下一个要爬取的请求(Requests)。
调度器返回下一个要爬取的请求(Request)给请求。
引擎从上步中得到的请求(Requests)通过下载器中间件(Downloader Middlewares)发送给下载器(Downloader),这个过程中下载器中间件(Downloader Middlerwares)中的process_request()函数就会被调用。
一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(Downloader Middlewares)中的process_response()函数，最后返回给引擎
引擎从下载器中得到上步中的Response并通过Spider中间件(Spider Middewares)发送给Spider处理，这个过程中Spider中间件(Spider Middlewares)中的process_spider_input()函数会被调用到。
Spider处理Response并通过Spider中间件(Spider Middlewares)返回爬取到的Item及(跟进的)新的Request给引擎，这个过程中Spider中间件(Spider Middlewares)的process_spider_output()函数会被调用到。
引擎将上步中Spider处理的及其爬取到的Item给Item管道(Piplline),将Spider处理的Requests发送给调度器，并向调度器请求可能存在的下一个要爬取的请求(Requests)
(从第二步)重复知道调度器中没有更多的请求(Requests)。

2. 房天下整站新房及二手房数据抓取

2.1项目目录结构

fangtianxia
│ items.py
│ middlewares.py
│ pipelines.py
│ settings.py
│ utils.py
│ init.py
│
├─spiders
│ │ ftx.py
│ │ init.py

2.2 核心代码

ftx.py ---爬虫程序，解析新房及二手房信息网页数据

# -*- coding: utf-8 -*-
import scrapy
from ..utils import GenCityData
import re
from ..items import NewHouseItem
from ..items import SecondHandHouseItem
from urllib import parse

class FtxSpider(scrapy.Spider):
    name = \'ftx\'
    allowed_domains = [\'fangtianxia.com\']
    start_urls = [\'https://www.fang.com/SoufunFamily.htm\',]

    def parse(self, response):
        id_no = 1
        id_prefix = "sffamily_B03_{0}"
        while 1:
            cur_no = id_no if id_no >= 10 else \'0\' + str(id_no)
            cur_basic_xpath = "//tr[@id=\'" + id_prefix.format(cur_no) + "\']"
            res = response.xpath(cur_basic_xpath)
            if not len(res):
                break
            else:
                g = GenCityData(res)
                for region_name, city_name, newhouse_link, oldhouse_link in g.data():
                    print(region_name, city_name, newhouse_link, oldhouse_link)
                    yield scrapy.Request(
                        url=newhouse_link,
                        callback=self.parse_newhouse,
                        meta={\'info\': (region_name, city_name)},
                        dont_filter=True,
                    )
                    yield scrapy.Request(
                        url=oldhouse_link,
                        callback=self.parse_oldhouse,
                        meta={\'info\': (region_name, city_name)},
                        dont_filter=True,
                    )
            id_no += 1

    def parse_newhouse(self, response):
        region_name, city_name = response.meta.get(\'info\')
        house_items = response.xpath("//li//div[contains(@class, \'nlc_details\')]")
        for house in house_items:
            format_func = lambda regex, unformate_str, join_tag: re.sub(regex, \'\', join_tag.join(unformate_str))
            # 小区(楼盘名)
            unformate_name = house.xpath(".//div[contains(@class, \'nlcd_name\')]/a/text()").get(),
            house_name = format_func(\'\s\', unformate_name, \'\')
            # 居室类型
            house_type = list(house.xpath("./div[contains(@class, \'house_type\')]/a/text()").getall())
            house_type = \'|\'.join(house_type)
            # 建面
            unformate_area = house.xpath("./div[contains(@class, \'house_type\')]/text()").getall()
            area = format_func(\'\s|/|－\', unformate_area, \'\')
            # 地址
            unformate_addr = house.xpath(".//div[contains(@class, \'address\')]//text()").getall()
            address = format_func(\'\s\', unformate_addr, \'\')
            # 价格
            unformate_price = house.xpath("./div[@class=\'nhouse_price\']//text()").getall()
            price = format_func(\'\s|广告\', unformate_price, \'\')
            # 联系电话
            unformate_tel = house.xpath(".//div[@class=\'tel\']/p/text()").getall()
            mobile = unformate_tel[0] if all(unformate_tel) else ""
            # 更多信息页
            detail_link = house.xpath(".//div[contains(@class, \'nlcd_name\')]/a/@href").get(),
            detail_link = \'https:\'+\'\'.join(list(detail_link))
            # 状态 在售或待售
            status = house.xpath(".//span[@class=\'inSale\']/text()").get()
            # 标签
            tags = house.xpath(".//div[contains(@class,\'fangyuan\')]/a/text()").getall()
            tags = format_func(\'\s\', tags, \'|\')

            yield NewHouseItem(
                house_name = house_name,
                house_type = house_type,
                area = area,
                address = address,
                detail_link = detail_link,
                price = price,
                mobile = mobile,
                status = status,
                tags = tags,
                region_name = region_name,
                city_name = city_name
            )

        next_page = response.xpath("//div[@class=\'page\']//a[@class=\'next\']/@href").get()
        if next_page:
            yield scrapy.Request(
                url = next_page,
                callback = self.parse_newhouse,
                meta = {\'info\':(region_name, city_name)},
                dont_filter = True
            )

    def parse_oldhouse(self, response):
        region_name, city_name = response.meta.get(\'info\')
        house_items = response.xpath("//div[contains(@class,\'shop_list\')]//dl[@id]")
        for house in house_items:
            # 小区名
            house_name = house.xpath(".//p[@class=\'add_shop\']/a/@title").get()
            # 标题
            title = house.xpath("./dd//span[@class=\'tit_shop\']/text()").get()
            detail_list = house.xpath(".//p[contains(@class,\'tel_shop\')]/text()").getall()
            detail_list = list(map(lambda x: x.strip(), detail_list))
            # 类型、建面、楼层类型、楼层朝向、修建日期
            house_type, area, floor, direction, *_ = detail_list
            # 房东姓名
            house_master = house.xpath(".//span[contains(@class,\'people_name\')]/a/text()").get()
            # 总价
            total_price = house.xpath("./dd[@class=\'price_right\']/span/b/text()").get()
            # 单价
            unit_price = house.xpath("./dd[@class=\'price_right\']/span//text()").getall()[-1]
            # 地址
            address = house.xpath(".//p[@class=\'add_shop\']/span/text()").get()
            # print(house_name, title, house_type, area, floor, direction, house_master, total_price, unit_price, address)
            yield SecondHandHouseItem(
                title = title,
                house_type = house_type,
                area = area,
                floor = floor,
                direction = direction,
                house_master = house_master,
                detail_addr = address,
                total_price = total_price,
                unit_price = unit_price,
                region_name = region_name,
                city_name = city_name,
                house_name = house_name,
            )

        next = response.xpath("//div[@class=\'page_al\']//p/a[text()=\'下一页\']")
        if bool(next):
            next_url = next.xpath("./@href").extract()[0]
            # print(response.urljoin(next_url))
            yield scrapy.Request(
                url=response.urljoin(next_url),
                callback=self.parse_oldhouse,
                dont_filter=True,
                meta={\'info\':(region_name, city_name)},
            )

utils.py ----生成每一个地区的新房及二手房URL

"""
该模块主要提供工具类
"""
import threading

Lock = threading.Lock()

class GenCityData(object):
    """提取首页的城市连接"""
    def __new__(cls, *args, **kwargs):
        with Lock:
            if hasattr(cls, \'_instance\'):
                return cls._instance
            setattr(cls, \'_instance\', object.__new__(cls))
            return cls._instance

    def __init__(self, res):
        self.res = res

    def _is_valid(self):
        """特别行政区的id与部分省份相同，处理差错"""
        # 排除&nbsp;特殊空格字符
        region_name_list = list(
            filter(lambda x: len(x.get().strip()), self.res.xpath(".//strong/text()"))
        )
        return True if len(region_name_list) == 2 else False

    def _region_format(self):
        if self._is_valid():
            *region_eles, special_region = self.res
            yield region_eles
            yield [special_region,]
        else:
            yield self.res

    def data(self):
        """数据结果集生成器"""
        region_name = None
        for idx, selector_eles in enumerate(self._region_format()):
            if idx == 0:
                region_name = selector_eles[0].xpath(\'.//strong/text()\').get()
                # print(region_name)
            cities = list()
            for selector in selector_eles:
                for city_name, city_link in zip(selector.xpath(\'.//a/text()\'),selector.xpath(\'.//a/@href\')):
                    cities.append((city_name.get(), city_link.get()))
            for ins in cities:
                # print(region_name, ins)

                # 新房地址
                temp1 = ins[-1].split(\'.\')
                temp1.insert(1, \'newhouse\')
                newhouse_link_prefix = \'.\'.join(temp1)
                newhouse_link = newhouse_link_prefix + \'house/s/\'

                # 二手房地址
                temp1[1] = \'esf\'
                oldhouse_link = \'.\'.join(temp1)

                # print(region_name, ins[0], newhouse_link, oldhouse_link)
                yield  region_name, ins[0], newhouse_link, oldhouse_link

items.py ----数据实体

import scrapy


class NormalDataItem(scrapy.Item):
    # 小区(楼盘)名
    house_name = scrapy.Field()
    # 建面
    area = scrapy.Field()
     # 地区
    region_name = scrapy.Field()
    # 城市
    city_name = scrapy.Field()

    
class NewHouseItem(NormalDataItem):
    # 地址
    address = scrapy.Field()
    # 居室类型
    house_type = scrapy.Field()
    # 更多信息页
    detail_link = scrapy.Field()
    # 售价
    price = scrapy.Field()
    # 联系电话
    mobile = scrapy.Field()
    # 状态
    status = scrapy.Field()
    # 标签
    tags = scrapy.Field()

    
class SecondHandHouseItem(NormalDataItem):
    # 标题
    title = scrapy.Field()
    # 楼层
    floor = scrapy.Field()
    # 朝向
    direction = scrapy.Field()
    # 房东
    house_master = scrapy.Field()
    # 地址
    detail_addr = scrapy.Field()
    # 房屋总价值
    total_price = scrapy.Field()
    # 单价
    unit_price = scrapy.Field()