爬虫（笔记07）/redis分布式与数据库扩展

扩展一：Redis简介

Redis 一个内存数据库，通过 Key-Value 键值对的的方式存储数据。由于 Redis 的数据都存储在内存中，所以访问速度非常快，因此 Redis 大量用于缓存系统，存储热点数据，可以极大的提高网站的响应速度。
（一）Redis优点
(1)支持数据的持久化，通过配置可以将内存中的数据保存在磁盘中，Redis 重启以后再将数据加载到内存中；
(2)支持列表，哈希，有序集合等数据结构，极大的扩展了 Redis 用途；
(3)原子操作，Redis 的所有操作都是原子性的，这使得基于 Redis 实现分布式锁非常简单；
(4)支持发布/订阅功能，数据过期功能；
环境准备：http://www.runoob.com/redis/redis-install.html
（二）Redis安装
在 Ubuntu 系统安装 Redi 可以使用以下命令:
$sudo apt-get update
$sudo apt-get install redis-server
（三）Redis启动
$ redis-server
查看 redis 是否启动？
$ redis-cli
以上命令将打开以下终端：
redis 127.0.0.1:6379>
127.0.0.1 是本机 IP ，6379 是 redis 服务端口。现在我们输入 PING 命令。
redis 127.0.0.1:6379
> ping
PONG
以上说明我们已经成功安装了redis。
四、常用命令
（一）基本操作
Redis 是 Key-Value 内存数据库，操作是通过各种指令进行的，比如 SET 指令可以设置键值对，而 GET 指令则获取某一个键的值。不同的数据结构，Redis 有不同的指令，这样指令一共有几十个，下面主要介绍一些常用的指令。Redis 对 Key 也就是键有各种各样的指令，主要有下面的指令(下面的指令中小写字符串都是参数，可以自定义)：
>keys * //返回键(key)
>keys list* //返回名以list开头的所有键(key)
>exists list1 //判断键名为list1的是否存在存在返回1，不存在返回0
>del list1 //删除一个键(名为list1)
>expire list1 10 //设置键名为list1的过期时间为10秒后
>ttl list1 //查看键名为list1的过期时间，若为-1表示以过期或永不过期
>move age 1 //将键名age的转移到1数据库中。
>select 1 //表示进入到1数据库中，默认在0数据库
>persist age //移除age的过期时间
>flushdb:删除所有的数据清除当前所在库的所有数据
>flushall 清空所有数据
（二）Redis 配置(了解)
Redis 的配置文件位于 Redis 安装目录下，文件名为 redis.conf。
你可以通过CONFIG命令查看或设置配置项。
redis 127.0.0.1:6379> CONFIG GET CONFIG_SETTING_NAME
redis 127.0.0.1:6379> CONFIG GET loglevel
1) “loglevel”
2) “notice”
（三）Redis 配置参数说明(了解)
redis.conf 配置项说明如下：
(1)Redis默认不是以守护进程的方式运行，可以通过该配置项修改，使用yes启用守护进程
daemonize no
(2)当Redis以守护进程方式运行时，Redis默认会把pid写入/var/run/redis.pid文件，可以通过pidfile指定
pidfile /var/run/redis.pid
(3)指定Redis监听端口，默认端口为6379，作者在自己的一篇博文中解释了为什么选用6379作为默认端口，因为6379在手机按键上MERZ对应的号码，而MERZ取自意大利歌女Alessia Merz的名字
port 6379
(4)绑定的主机地址
bind 127.0.0.1
(5)当客户端闲置多长时间后关闭连接，如果指定为0，表示关闭该功能
timeout 300
(6)指定日志记录级别，Redis总共支持四个级别：debug、verbose、notice、warning，默认为verbose
loglevel verbose
(7)日志记录方式，默认为标准输出，如果配置Redis为守护进程方式运行，而这里又配置为日志记录方式为标准输出，则日志将会发送给/dev/null
logfile stdout
(8)设置数据库的数量，默认数据库为0，可以使用SELECT 命令在连接上指定数据库id
databases 16
(9)指定在多长时间内，有多少次更新操作，就将数据同步到数据文件，可以多个条件配合
save
Redis默认配置文件中提供了三个条件：
save 900 1
save 300 10
save 60 10000
分别表示900秒(15分钟)内有1个更改，300秒(5分钟)内有10个更改以及60秒内有10000个更改。

(10)指定存储至本地数据库时是否压缩数据，默认为yes，Redis采用LZF压缩，如果为了节省CPU时间，可以关闭该选项，但会导致数据库文件变的巨大
rdbcompression yes
(11)指定本地数据库文件名，默认值为dump.rdb
dbfilename dump.rdb
(12)指定本地数据库存放目录
dir ./
(13)设置当本机为slav服务时，设置master服务的IP地址及端口，在Redis启动时，它会自动从master进行数据同步
slaveof
(14)当master服务设置了密码保护时，slav服务连接master的密码
masterauth
(15)设置Redis连接密码，如果配置了连接密码，客户端在连接Redis时需要通过AUTH 命令提供密码，默认关闭
requirepass foobared
(16)设置同一时间最大客户端连接数，默认无限制，Redis可以同时打开的客户端连接数为Redis进程可以打开的最大文件描述符数，如果设置 maxclients 0，表示不作限制。当客户端连接数到达限制时，Redis会关闭新的连接并向客户端返回max number of clients reached错误信息
maxclients 128
(17)指定Redis最大内存限制，Redis在启动时会把数据加载到内存中，达到最大内存后，Redis会先尝试清除已到期或即将到期的Key，
当此方法处理后，仍然到达最大内存设置，将无法再进行写入操作，但仍然可以进行读取操作。
Redis新的vm机制，会把Key存放内存，Value会存放在swap区
maxmemory
(18)指定是否在每次更新操作后进行日志记录，Redis在默认情况下是异步的把数据写入磁盘，如果不开启，可能会在断电时导致一段时间内的数据丢失。因为 redis本身同步数据文件是按上面save条件来同步的，所以有的数据会在一段时间内只存在于内存中。默认为no
appendonly no
(19)指定更新日志文件名，默认为appendonly.aof
appendfilename appendonly.aof
(20) 指定更新日志条件，共有3个可选值：
no：表示等操作系统进行数据缓存同步到磁盘(快)
always：表示每次更新操作后手动调用fsync()将数据写到磁盘(慢，安全)
everysec：表示每秒同步一次(折衷，默认值)
appendfsync everysec
(21)指定是否启用虚拟内存机制，默认值为no，简单的介绍一下，VM机制将数据分页存放，由Redis将访问量较少的页即冷数据swap到磁盘上，访问多的页面由磁盘自动换出到内存中(在后面的文章我会仔细分析Redis的VM机制)
vm-enabled no
(22)虚拟内存文件路径，默认值为/tmp/redis.swap，不可多个Redis实例共享
vm-swap-file /tmp/redis.swap
(23)将所有大于vm-max-memory的数据存入虚拟内存，无论vm-max-memory设置多小，所有索引数据都是内存存储的(Redis的索引数据就是keys)，也就是说，当vm-max-memory设置为0的时候，其实是所有value都存在于磁盘。默认值为0
vm-max-memory 0
(24) Redis swap文件分成了很多的page，一个对象可以保存在多个page上面，但一个page上不能被多个对象共享，
vm-page-size是要根据存储的数据大小来设定的，作者建议如果存储很多小对象，page大小最好设置为32或者64bytes；如果存储很大大对象，则可以使用更大的page，如果不确定，就使用默认值
vm-page-size 32
(25) 设置swap文件中的page数量，由于页表(一种表示页面空闲或使用的bitmap)是在放在内存中的，在磁盘上每8个pages将消耗1byte的内存。
vm-pages 134217728
(26)设置访问swap文件的线程数，最好不要超过机器的核数，如果设置为0，那么所有对swap文件的操作都是串行的，可能会造成比较长时间的延迟。
默认值为4
vm-max-threads 4
(27)设置在向客户端应答时，是否把较小的包合并为一个包发送，默认为开启
glueoutputbuf yes
(28)指定在超过一定的数量或者最大的元素超过某一临界值时，采用一种特殊的哈希算法
hash-max-zipmap-entries 64
hash-max-zipmap-value 512
(29)指定是否**重置哈希，默认为开启(后面在介绍Redis的哈希算法时具体介绍)
activerehashing yes
(30)指定包含其它的配置文件，可以在同一主机上多个Redis实例之间使用同一份配置文件，而同时各个实例又拥有自己的特定配置文件
include /path/to/local.conf

扩展二：Redis数据库基础操作

一、Redis的数据类型
Redis通常被称为数据结构服务器，因为值(value)可以是字符串(String)，哈希(Hash)，列表(list)，集合(sets) 和有序集合(sorted sets)等类型。
（一）String(子串类型)
set 命令：设置一个键和值，键存在则只覆盖，返回ok
> set 键值例如： >set name zhangsan
get 命令：获取一个键的值，返回值
> get 键例如：>get name
setnx命令：设置一个不存在的键和值(防止覆盖)，
> setnx 键值若键已存在则返回0表示失败
setex命令：设置一个指定有效期的键和值(单位秒)
> setex 键 [有效时间] 值例如: >setex color 10 red
不写有效时间则表示永久有效，等价于set
setrange命令：替换子字符串 (替换长度由子子串长度决定)
> setrange 键位置子字串
> setrange name 4 aa 将name键对应值的第4个位置开始替换
mset命令：批量设置键和值，成功则返回ok
> mset 键1 值1 键2 值2 键3 值3 …
msetnx命令：批量设置不存在的键和值，成功则返回ok
> msetnx 键1 值1 键2 值2 键3 值3 …
getset命令：获取原值，并设置新值
getrange命令：获取指定范围的值
>getrange 键 0 4 //获取指定0到4位置上的值
mget命令：批量获取值
>mget 键1 键2 键3…
incr命令：指定键的值做加加操作，返回加后的结果。
> 键例如： >incr kid
incrby命令：设置某个键加上指定值
> incrby 键 m //其中m可以是正整数或负整数
decr命令：指定键的值做减减操作，返回减后的结果。
> decr 键例如： >decr kid
decrby命令：设置某个键减上指定值
> decrby 键 m //其中m可以是正整数或负整数
append命令：给指定key的字符串追加value，返回新字符串值的长度
>append 键追加字串
strlen求长度 >strlen 键名 //返回对应的值。
（二）Hash类型
Redis hash 是一个string类型的field和value的映射表，hash特别适合用于存储对象。
hset命令：设置一个哈希表的键和值
>hset hash名键值
如：>hset user:001 name zhangsan
hget命令：获取执行哈希名中的键对应值
hsetnx命令：设置一个哈希表中不存在的键和值
>hsetnx hash名键值 //成功返回1，失败返回0
如：>hsetnx user:001 name zhangsan
hmset命令:hmset user:001 username zhangsan age 20 sex 1 批量设置
hmget user:001 username age sex:批量获取值
>hexists user:001 name //是否存在，若存在返回1
>hlen user:001 //获取某哈希user001名中键的数量
>hdel user:001 name //删除哈希user:001 中name键
>hkeys user:002 //返回哈希名为user:002中的所有键。
>hvals user:002 //返回哈希名为user:002中的所有值。
>hgetall user:002 //返回哈希名为user:002中的所有键和值。
（三）List列表(双向链表结构)
Redis列表是简单的字符串列表，按照插入顺序排序。你可以添加一个元素到列表的头部(左边)或者尾部(右边)
list即可以作为“栈”也可以作为"队列"。
操作：
>lpush list1 “world” //在list1头部压入一个字串
>lpush list1 “hello” // 在list1头部压入一个字串
>lrange list1 0 -1 //获取list1中内容
0:表示开头 -1表示结尾。
>rpush list2 “world” //在list2尾部压入一个字串
>rpush list2 “hello” // 在list2尾部压入一个字串
>lrange list2 0 -1 //获取list2中内容
0:表示开头 -1表示结尾。
>linsert list2 before hello there
在key对应list的特定位置前或后添加字符串
>lset list2 1 “four”
修改指定索引位置上的值
>lrem list2 2 “hello” //删除前两个hello值
>lrem list2 -2 “hello” //删除后两个hello值
>lrem list2 0 “hello” //删除所有hello值
>ltrim mylist8 1 3 //删除此范围外的值
>lpop list2 //从list2的头部删除元素，并返回删除元素
>rpop list2 //从list2的尾部删除元素，并返回删除元素
>rpoplpush list1 list2 //将list1的尾部一个元素移出到list2头部。并返回
>lindex list2 1 //返回list2中索引位置上的元素
>llen list2 //返回list2上长度
（四）Redis 集合(Set)
Redis的Set是string类型的无序集合。集合成员是唯一的，这就意味着集合中不能出现重复的数据。
>sadd myset “hello” //向myset中添加一个元素
成功返回1，失败(重复)返回0
>smembers myset //获取myset中的所有元素(结果是无序的)
>srem myset “one” //从myset中删除一个one
成功返回1，失败(不存在)返回0
>spop myset //随机返回并删除myset中的一个元素
>srandmember myset //随机获取myset中的一个元素，但是不删除
> smove myset1 myset2 zhangsan:将myset1中zhangsan移动到myset2中
> scard myset1 返回myset1的个数
> sismember myset zhangsan:判断张三是否在myset中
>sdiff myset1 myset2 //返回两个集合的差集
以myset1为标准，获取myset2中不存在的。
>sdiffstore dstset myset1 myset2 …// 返回所有集合的差集，并保存到dstset中
>sinter myset1 myset2 myset3… // 返回N个集合中的交集
>sinterstore dstset myset1 myset2 … // 返回N个集合的交集并存储到dstset中
> sunion myset1 myset2 …//返回所有集合的并集
> sunionstore dstset myset1 myset2// 返回所有集合的并集，并存储到dstset中
（五）Redis 有序集合Sset (sorted set)
Redis 有序集合和集合一样也是string类型元素的集合，且不允许重复的成员。
不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。
有序集合的成员是唯一的，但分数(score)却可以重复。
> zadd zset 1 one 向zset中添加one，排序为1排序
> zrem zset one:删除zset中one
> zincrby zset 2 one:如果one存在，则顺序增加2，如果one不存在，那么就是2
> zrank zset one:返回one在zset中排名(从小到大的排序)
> zrevrank zset one:返回one在zset中排名(从大到小的排序)
> zrange zset 0 -1 withscores:根据score排序(根据score从小到大排序)
> zrevrange zset 0 -1 withscores:根据score排序(根据score从大到小排序)
> zrangebyscore zset 2 3 withscores:返回集合中score在给定区间的元素(包含2和5)
> zcount zset 2 3:返回集合中给定区间的数量
> zcard zset:返回集合中元素的个数
> zscore zset one:返回one元素的score
> zremrangebyrank zset 3 3:删除集合中排名在给定区间的元素
> zremrangebyscore zset 1 2:将zset中从小到大排序结果的score在1-2之间的删除
二、Python 访问 Redis
对于使用 Python 访问 Redis，我们需要先安装 redis-py 软件包，该包实现了 Python 的 Redis 驱动。通过以下命令建立工作环境，安装软件包：
$ sudo pip3 install redis
1.Python 操作 Redis
Python 中访问 Redis 可以通过redis-py软件包进行。类似于 PyMongo，也是需要先创建一个 Redis 客户端，如下代码:
import redis
r = redis.Redis(host=‘127.0.0.1’， port=6379，decode_responses=True)
r.set(‘name’， ‘OK’)
print(r.get(‘name’))

扩展三：分布式爬虫Scrapy-redis框架

一、分布式爬虫简介
（一）为什么要用分布式
爬虫A，爬虫B，爬虫C分布在三台服务器上面，我们同时启动三台服务器进行爬取大量的URL，爬虫A爬取过的URL，爬虫B和爬虫C就不需要爬取，如何协调三台爬虫服务器去实现不重复的抓取，需要使用状态管理器管理，状态管理器会对我们的爬虫进行集中的去重，状态服务器是单独的服务，部署在ABC三台服务器当中的一台中，也可以部署在单独的服务器上面。通过状态管理器集中分配需要抓取的URL，以及去重。
分布式爬虫有点：
1、充分利用多机器的带宽进行加速的爬取，一台服务器上的带宽有限。
2、充分利用多机器的IP加速爬取的速度，一台服务器如果爬取过快则可能IP会被封。
分布式爬虫：多台服务器有序的爬取任务队列中的URL。
（二）Scrapy 和 Scrapy-redis的区别
Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。
pip install Scrapy-redis
Scrapy-redis提供了下面四种组件(components)：(四种组件意味着这四个模块都要做相应的修改)
Scheduler
Duplication Filter
Item Pipeline
Base Spider
（三）Scrapy-redis架构
如上图所⽰示，Scrapy-redis在Scrapy的架构上增加了redis，基于redis的特性拓展了如下组件：
爬虫（笔记07）/redis分布式与数据库扩展
图13-1 scrapy-redis架构图
1、Scheduler
Scrapy改造了python本来的collection.deque(双向队列)形成了自己的Scrapy queue(http://github.com/Scrapy/queuelib/blob/master/queuelib/queue.py))，但是Scrapy多个spider不能共享待爬取队列Scrapy queue，即Scrapy本身不支持爬虫分布式，Scrapy-redis 的解决是把这个Scrapy queue换成redis数据库(也是指redis队列)，从同一个redis-server存放要爬取的request，便能让多个spider去同一个数据库里读取。
Scrapy中跟“待爬队列”直接相关的就是调度器Scheduler，它负责对新的request进行入列操作(加入Scrapy queue)，取出下一个要爬取的request(从Scrapy queue中取出)等操作。它把待爬队列按照优先级建立了一个字典结构，比如：
{
优先级0 : 队列0
优先级1 : 队列1
优先级2 : 队列2
}
然后根据request中的优先级，来决定该入哪个队列，出列时则按优先级较小的优先出列。为了管理这个比较高级的队列字典，Scheduler需要提供一系列的方法。但是原来的Scheduler已经无法使用，所以使用Scrapy-redis的scheduler组件。
2、Duplication Filter
Scrapy中用集合实现这个request去重功能，Scrapy中把已经发送的request指纹放入到一个集合中，把下一个request的指纹拿到集合中比对，如果该指纹存在于集合中，说明这个request发送过了，如果没有则继续操作。这个核心的判重功能是这样实现的
def request_seen(self， request):
# self.request_figerprints 就是一个指纹集合
fp = self.request_fingerprint(request)
# 这就是判重的核心操作
if fp in self.fingerprints:
return True
self.fingerprints.add(fp)
if self.file:
self.file.write(fp + os.linesep)
在Scrapy-redis中去重是由Duplication Filter组件来实现的，它通过redis的set 不重复的特性，巧妙的实现了Duplication Filter去重。Scrapy-redis调度器从引擎接受request，将request的指纹存⼊redis的set检查是否重复，并将不重复的request push写⼊redis的 request queue。
引擎请求request(Spider发出的)时，调度器从redis的request queue队列⾥里根据优先级pop 出⼀个request 返回给引擎，引擎将此request发给spider处理。
3、Item Pipeline
引擎将(Spider返回的)爬取到的Item给Item Pipeline，Scrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。
修改过Item Pipeline可以很方便的根据 key 从 items queue 提取item，从⽽实现items processes集群。
4、Base Spider
不在使用Scrapy原有的Spider类，重写的RedisSpider继承了Spider和RedisMixin这两个类，RedisMixin是用来从redis读取url的类。
当我们生成一个Spider继承RedisSpider时，调用setup_redis函数，这个函数会去连接redis数据库，然后会设置signals(信号)：
1、一个是当spider空闲时候的signal，会调用spider_idle函数，这个函数调用schedule_next_request函数，保证spider是一直活着的状态，并且抛出DontCloseSpider异常。
2、一个是当抓到一个item时的signal，会调用item_scraped函数，这个函数会调用schedule_next_request函数，获取下一个request。
（四）总结
1、最后总结一下Scrapy-redis的总体思路：这套组件通过重写scheduler和spider类，实现了调度、spider启动和redis的交互。
2、实现新的dupefilter和queue类，达到了判重和调度容器和redis的交互，因为每个主机上的爬虫进程都访问同一个redis数据库，所以调度和判重都统一进行统一管理，达到了分布式爬虫的目的。
3、当spider被初始化时，同时会初始化一个对应的scheduler对象，这个调度器对象通过读取settings，配置好自己的调度容器queue和判重工具dupefilter。
4、每当一个spider产出一个request的时候，Scrapy引擎会把这个reuqest递交给这个spider对应的scheduler对象进行调度，scheduler对象通过访问redis对request进行判重，如果不重复就把他添加进redis中的调度器队列里。当调度条件满足时，scheduler对象就从redis的调度器队列中取出一个request发送给spider，让他爬取。
5、当spider爬取的所有暂时可用url之后，scheduler发现这个spider对应的redis的调度器队列空了，于是触发信号spider_idle，spider收到这个信号之后，直接连接redis读取strart_url池，拿去新的一批url入口，然后再次重复上边的工作。