扩展一:Redis简介
Redis 一个内存数据库,通过 Key-Value 键值对的的方式存储数据。由于 Redis 的数据都存储在内存中,所以访问速度非常快,因此 Redis 大量用于缓存系统,存储热点数据,可以极大的提高网站的响应速度。
(一)Redis优点
(1)支持数据的持久化,通过配置可以将内存中的数据保存在磁盘中,Redis 重启以后再将数据加载到内存中;
(2)支持列表,哈希,有序集合等数据结构,极大的扩展了 Redis 用途;
(3)原子操作,Redis 的所有操作都是原子性的,这使得基于 Redis 实现分布式锁非常简单;
(4)支持发布/订阅功能,数据过期功能;
环境准备:http://www.runoob.com/redis/redis-install.html
(二)Redis安装
在 Ubuntu 系统安装 Redi 可以使用以下命令:
$sudo apt-get update
$sudo apt-get install redis-server
(三)Redis启动
$ redis-server
查看 redis 是否启动?
$ redis-cli
以上命令将打开以下终端:
redis 127.0.0.1:6379>
127.0.0.1 是本机 IP ,6379 是 redis 服务端口。现在我们输入 PING 命令。
redis 127.0.0.1:6379
> ping
PONG
以上说明我们已经成功安装了redis。
四、常用命令
(一)基本操作
Redis 是 Key-Value 内存数据库,操作是通过各种指令进行的,比如 SET 指令可以设置键值对,而 GET 指令则获取某一个键 的值。不同的数据结构,Redis 有不同的指令,这样指令一共有几十个,下面主要介绍一些常用的指令。Redis 对 Key 也就是键有各种各样的指令,主要有下面的指令(下面的指令中小写字符串都是参数,可以自定义):
>keys * //返回键(key)
>keys list* //返回名以list开头的所有键(key)
>exists list1 //判断键名为list1的是否存在 存在返回1, 不存在返回0
>del list1 //删除一个键(名为list1)
>expire list1 10 //设置键名为list1的过期时间为10秒后
>ttl list1 //查看键名为list1的过期时间,若为-1表示以过期 或 永不过期
>move age 1 //将键名age的转移到1数据库中。
>select 1 //表示进入到1数据库中,默认在0数据库
>persist age //移除age的过期时间
>flushdb:删除所有的数据 清除当前所在库的所有数据
>flushall 清空所有数据
(二)Redis 配置(了解)
Redis 的配置文件位于 Redis 安装目录下,文件名为 redis.conf。
你可以通过CONFIG命令查看或设置配置项。
redis 127.0.0.1:6379> CONFIG GET CONFIG_SETTING_NAME
redis 127.0.0.1:6379> CONFIG GET loglevel
1) “loglevel”
2) “notice”
(三)Redis 配置参数说明(了解)
redis.conf 配置项说明如下:
(1)Redis默认不是以守护进程的方式运行,可以通过该配置项修改,使用yes启用守护进程
daemonize no
(2)当Redis以守护进程方式运行时,Redis默认会把pid写入/var/run/redis.pid文件,可以通过pidfile指定
pidfile /var/run/redis.pid
(3)指定Redis监听端口,默认端口为6379,作者在自己的一篇博文中解释了为什么选用6379作为默认端口,因为6379在手机按键上MERZ对应的号码,而MERZ取自意大利歌女Alessia Merz的名字
port 6379
(4)绑定的主机地址
bind 127.0.0.1
(5)当 客户端闲置多长时间后关闭连接,如果指定为0,表示关闭该功能
timeout 300
(6)指定日志记录级别,Redis总共支持四个级别:debug、verbose、notice、warning,默认为verbose
loglevel verbose
(7)日志记录方式,默认为标准输出,如果配置Redis为守护进程方式运行,而这里又配置为日志记录方式为标准输出,则日志将会发送给/dev/null
logfile stdout
(8)设置数据库的数量,默认数据库为0,可以使用SELECT 命令在连接上指定数据库id
databases 16
(9)指定在多长时间内,有多少次更新操作,就将数据同步到数据文件,可以多个条件配合
save
Redis默认配置文件中提供了三个条件:
save 900 1
save 300 10
save 60 10000
分别表示900秒(15分钟)内有1个更改,300秒(5分钟)内有10个更改以及60秒内有10000个更改。
(10)指定存储至本地数据库时是否压缩数据,默认为yes,Redis采用LZF压缩,如果为了节省CPU时间,可以关闭该选项,但会导致数据库文件变的巨大
rdbcompression yes
(11)指定本地数据库文件名,默认值为dump.rdb
dbfilename dump.rdb
(12)指定本地数据库存放目录
dir ./
(13)设置当本机为slav服务时,设置master服务的IP地址及端口,在Redis启动时,它会自动从master进行数据同步
slaveof
(14)当master服务设置了密码保护时,slav服务连接master的密码
masterauth
(15)设置Redis连接密码,如果配置了连接密码,客户端在连接Redis时需要通过AUTH 命令提供密码,默认关闭
requirepass foobared
(16)设置同一时间最大客户端连接数,默认无限制,Redis可以同时打开的客户端连接数为Redis进程可以打开的最大文件描述符数,如果设置 maxclients 0,表示不作限制。当客户端连接数到达限制时,Redis会关闭新的连接并向客户端返回max number of clients reached错误信息
maxclients 128
(17)指定Redis最大内存限制,Redis在启动时会把数据加载到内存中,达到最大内存后,Redis会先尝试清除已到期或即将到期的Key,
当此方法处理 后,仍然到达最大内存设置,将无法再进行写入操作,但仍然可以进行读取操作。
Redis新的vm机制,会把Key存放内存,Value会存放在swap区
maxmemory
(18)指定是否在每次更新操作后进行日志记录,Redis在默认情况下是异步的把数据写入磁盘,如果不开启,可能会在断电时导致一段时间内的数据丢失。因为 redis本身同步数据文件是按上面save条件来同步的,所以有的数据会在一段时间内只存在于内存中。默认为no
appendonly no
(19)指定更新日志文件名,默认为appendonly.aof
appendfilename appendonly.aof
(20) 指定更新日志条件,共有3个可选值:
no:表示等操作系统进行数据缓存同步到磁盘(快)
always:表示每次更新操作后手动调用fsync()将数据写到磁盘(慢,安全)
everysec:表示每秒同步一次(折衷,默认值)
appendfsync everysec
(21)指定是否启用虚拟内存机制,默认值为no,简单的介绍一下,VM机制将数据分页存放,由Redis将访问量较少的页即冷数据swap到磁盘上,访问多的页面由磁盘自动换出到内存中(在后面的文章我会仔细分析Redis的VM机制)
vm-enabled no
(22)虚拟内存文件路径,默认值为/tmp/redis.swap,不可多个Redis实例共享
vm-swap-file /tmp/redis.swap
(23)将所有大于vm-max-memory的数据存入虚拟内存,无论vm-max-memory设置多小,所有索引数据都是内存存储的(Redis的索引数据 就是keys),也就是说,当vm-max-memory设置为0的时候,其实是所有value都存在于磁盘。默认值为0
vm-max-memory 0
(24) Redis swap文件分成了很多的page,一个对象可以保存在多个page上面,但一个page上不能被多个对象共享,
vm-page-size是要根据存储的 数据大小来设定的,作者建议如果存储很多小对象,page大小最好设置为32或者64bytes;如果存储很大大对象,则可以使用更大的page,如果不 确定,就使用默认值
vm-page-size 32
(25) 设置swap文件中的page数量,由于页表(一种表示页面空闲或使用的bitmap)是在放在内存中的,在磁盘上每8个pages将消耗1byte的内存。
vm-pages 134217728
(26)设置访问swap文件的线程数,最好不要超过机器的核数,如果设置为0,那么所有对swap文件的操作都是串行的,可能会造成比较长时间的延迟。
默认值为4
vm-max-threads 4
(27)设置在向客户端应答时,是否把较小的包合并为一个包发送,默认为开启
glueoutputbuf yes
(28)指定在超过一定的数量或者最大的元素超过某一临界值时,采用一种特殊的哈希算法
hash-max-zipmap-entries 64
hash-max-zipmap-value 512
(29)指定是否**重置哈希,默认为开启(后面在介绍Redis的哈希算法时具体介绍)
activerehashing yes
(30)指定包含其它的配置文件,可以在同一主机上多个Redis实例之间使用同一份配置文件,而同时各个实例又拥有自己的特定配置文件
include /path/to/local.conf
扩展二:Redis数据库基础操作
一、Redis的数据类型
Redis通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希(Hash), 列表(list), 集合(sets) 和 有序集合(sorted sets)等类型。
(一)String(子串类型)
set 命令:设置一个键和值,键存在则只覆盖,返回ok
> set 键 值 例如: >set name zhangsan
get 命令:获取一个键的值,返回值
> get 键 例如:>get name
setnx命令:设置一个不存在的键和值(防止覆盖),
> setnx 键 值 若键已存在则返回0表示失败
setex命令:设置一个指定有效期的键和值(单位秒)
> setex 键 [有效时间] 值 例如: >setex color 10 red
不写有效时间则表示永久有效,等价于set
setrange命令:替换子字符串 (替换长度由子子串长度决定)
> setrange 键 位置 子字串
> setrange name 4 aa 将name键对应值的第4个位置开始替换
mset命令:批量设置键和值,成功则返回ok
> mset 键1 值1 键2 值2 键3 值3 …
msetnx命令:批量设置不存在的键和值,成功则返回ok
> msetnx 键1 值1 键2 值2 键3 值3 …
getset命令:获取原值,并设置新值
getrange命令:获取指定范围的值
>getrange 键 0 4 //获取指定0到4位置上的值
mget命令: 批量获取值
>mget 键1 键2 键3…
incr命令: 指定键的值做加加操作,返回加后的结果。
> 键 例如: >incr kid
incrby命令: 设置某个键加上指定值
> incrby 键 m //其中m可以是正整数或负整数
decr命令: 指定键的值做减减操作,返回减后的结果。
> decr 键 例如: >decr kid
decrby命令: 设置某个键减上指定值
> decrby 键 m //其中m可以是正整数或负整数
append命令:给指定key的字符串追加value,返回新字符串值的长度
>append 键 追加字串
strlen求长度 >strlen 键名 //返回对应的值。
(二)Hash类型
Redis hash 是一个string类型的field和value的映射表,hash特别适合用于存储对象。
hset命令:设置一个哈希表的键和值
>hset hash名 键 值
如:>hset user:001 name zhangsan
hget命令: 获取执行哈希名中的键对应值
hsetnx命令:设置一个哈希表中不存在的键和值
>hsetnx hash名 键 值 //成功返回1,失败返回0
如:>hsetnx user:001 name zhangsan
hmset命令:hmset user:001 username zhangsan age 20 sex 1 批量设置
hmget user:001 username age sex:批量获取值
>hexists user:001 name //是否存在, 若存在返回1
>hlen user:001 //获取某哈希user001名中键的数量
>hdel user:001 name //删除哈希user:001 中name键
>hkeys user:002 //返回哈希名为user:002中的所有键。
>hvals user:002 //返回哈希名为user:002中的所有值。
>hgetall user:002 //返回哈希名为user:002中的所有键和值。
(三)List列表(双向链表结构)
Redis列表是简单的字符串列表,按照插入顺序排序。你可以添加一个元素到列表的头部(左边)或者尾部(右边)
list即可以作为“栈”也可以作为"队列"。
操作:
>lpush list1 “world” //在list1头部压入一个字串
>lpush list1 “hello” // 在list1头部压入一个字串
>lrange list1 0 -1 //获取list1中内容
0:表示开头 -1表示结尾。
>rpush list2 “world” //在list2尾部压入一个字串
>rpush list2 “hello” // 在list2尾部压入一个字串
>lrange list2 0 -1 //获取list2中内容
0:表示开头 -1表示结尾。
>linsert list2 before hello there
在key对应list的特定位置前或后添加字符串
>lset list2 1 “four”
修改指定索引位置上的值
>lrem list2 2 “hello” //删除前两个hello值
>lrem list2 -2 “hello” //删除后两个hello值
>lrem list2 0 “hello” //删除所有hello值
>ltrim mylist8 1 3 //删除此范围外的值
>lpop list2 //从list2的头部删除元素,并返回删除元素
>rpop list2 //从list2的尾部删除元素,并返回删除元素
>rpoplpush list1 list2 //将list1的尾部一个元素移出到list2头部。并返回
>lindex list2 1 //返回list2中索引位置上的元素
>llen list2 //返回list2上长度
(四)Redis 集合(Set)
Redis的Set是string类型的无序集合。集合成员是唯一的,这就意味着集合中不能出现重复的数据。
>sadd myset “hello” //向myset中添加一个元素
成功返回1,失败(重复)返回0
>smembers myset //获取myset中的所有元素(结果是无序的)
>srem myset “one” //从myset中删除一个one
成功返回1,失败(不存在)返回0
>spop myset //随机返回并删除myset中的一个元素
>srandmember myset //随机获取myset中的一个元素,但是不删除
> smove myset1 myset2 zhangsan:将myset1中zhangsan移动到myset2中
> scard myset1 返回myset1的个数
> sismember myset zhangsan:判断张三是否在myset中
>sdiff myset1 myset2 //返回两个集合的差集
以myset1为标准,获取myset2中不存在的。
>sdiffstore dstset myset1 myset2 …// 返回所有集合的差集,并保存到dstset中
>sinter myset1 myset2 myset3… // 返回N个集合中的交集
>sinterstore dstset myset1 myset2 … // 返回N个集合的交集并存储到dstset中
> sunion myset1 myset2 …//返回所有集合的并集
> sunionstore dstset myset1 myset2// 返回所有集合的并集,并存储到dstset中
(五)Redis 有序集合Sset (sorted set)
Redis 有序集合和集合一样也是string类型元素的集合,且不允许重复的成员。
不同的是每个元素都会关联一个double类型的分数。redis正是通过分数来为集合中的成员进行从小到大的排序。
有序集合的成员是唯一的,但分数(score)却可以重复。
> zadd zset 1 one 向zset中添加one,排序为1排序
> zrem zset one:删除zset中one
> zincrby zset 2 one:如果one存在,则顺序增加2,如果one不存在,那么就是2
> zrank zset one:返回one在zset中排名(从小到大的排序)
> zrevrank zset one:返回one在zset中排名(从大到小的排序)
> zrange zset 0 -1 withscores:根据score排序(根据score从小到大排序)
> zrevrange zset 0 -1 withscores:根据score排序(根据score从大到小排序)
> zrangebyscore zset 2 3 withscores:返回集合中score在给定区间的元素(包含2和5)
> zcount zset 2 3:返回集合中给定区间的数量
> zcard zset:返回集合中元素的个数
> zscore zset one:返回one元素的score
> zremrangebyrank zset 3 3:删除集合中排名在给定区间的元素
> zremrangebyscore zset 1 2:将zset中从小到大排序结果的score在1-2之间的删除
二、Python 访问 Redis
对于使用 Python 访问 Redis,我们需要先安装 redis-py 软件包,该包实现了 Python 的 Redis 驱动。通过以下命令建立工作环境,安装软件包:
$ sudo pip3 install redis
1.Python 操作 Redis
Python 中访问 Redis 可以通过redis-py软件包进行。类似于 PyMongo, 也是需要先创建一个 Redis 客户端,如下代码:
import redis
r = redis.Redis(host=‘127.0.0.1’, port=6379,decode_responses=True)
r.set(‘name’, ‘OK’)
print(r.get(‘name’))
扩展三:分布式爬虫Scrapy-redis框架
一、分布式爬虫简介
(一)为什么要用分布式
爬虫A,爬虫B,爬虫C分布在三台服务器上面,我们同时启动三台服务器进行爬取大量的URL,爬虫A爬取过的URL,爬虫B和爬虫C就不需要爬取,如何协调三台爬虫服务器去实现不重复的抓取,需要使用状态管理器管理,状态管理器会对我们的爬虫进行集中的去重,状态服务器是单独的服务,部署在ABC三台服务器当中的一台中,也可以部署在单独的服务器上面。通过状态管理器集中分配需要抓取的URL,以及去重。
分布式爬虫有点:
1、充分利用多机器的带宽进行加速的爬取,一台服务器上的带宽有限。
2、充分利用多机器的IP加速爬取的速度,一台服务器如果爬取过快则可能IP会被封。
分布式爬虫:多台服务器有序的爬取任务队列中的URL。
(二)Scrapy 和 Scrapy-redis的区别
Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。
pip install Scrapy-redis
Scrapy-redis提供了下面四种组件(components):(四种组件意味着这四个模块都要做相应的修改)
Scheduler
Duplication Filter
Item Pipeline
Base Spider
(三)Scrapy-redis架构
如上图所⽰示,Scrapy-redis在Scrapy的架构上增加了redis,基于redis的特性拓展了如下组件:
图13-1 scrapy-redis架构图
1、Scheduler
Scrapy改造了python本来的collection.deque(双向队列)形成了自己的Scrapy queue(http://github.com/Scrapy/queuelib/blob/master/queuelib/queue.py)),但是Scrapy多个spider不能共享待爬取队列Scrapy queue, 即Scrapy本身不支持爬虫分布式,Scrapy-redis 的解决是把这个Scrapy queue换成redis数据库(也是指redis队列),从同一个redis-server存放要爬取的request,便能让多个spider去同一个数据库里读取。
Scrapy中跟“待爬队列”直接相关的就是调度器Scheduler,它负责对新的request进行入列操作(加入Scrapy queue),取出下一个要爬取的request(从Scrapy queue中取出)等操作。它把待爬队列按照优先级建立了一个字典结构,比如:
{
优先级0 : 队列0
优先级1 : 队列1
优先级2 : 队列2
}
然后根据request中的优先级,来决定该入哪个队列,出列时则按优先级较小的优先出列。为了管理这个比较高级的队列字典,Scheduler需要提供一系列的方法。但是原来的Scheduler已经无法使用,所以使用Scrapy-redis的scheduler组件。
2、Duplication Filter
Scrapy中用集合实现这个request去重功能,Scrapy中把已经发送的request指纹放入到一个集合中,把下一个request的指纹拿到集合中比对,如果该指纹存在于集合中,说明这个request发送过了,如果没有则继续操作。这个核心的判重功能是这样实现的
def request_seen(self, request):
# self.request_figerprints 就是一个指纹集合
fp = self.request_fingerprint(request)
# 这就是判重的核心操作
if fp in self.fingerprints:
return True
self.fingerprints.add(fp)
if self.file:
self.file.write(fp + os.linesep)
在Scrapy-redis中去重是由Duplication Filter组件来实现的,它通过redis的set 不重复的特性,巧妙的实现了Duplication Filter去重。Scrapy-redis调度器从引擎接受request,将request的指纹存⼊redis的set检查是否重复,并将不重复的request push写⼊redis的 request queue。
引擎请求request(Spider发出的)时,调度器从redis的request queue队列⾥里根据优先级pop 出⼀个request 返回给引擎,引擎将此request发给spider处理。
3、Item Pipeline
引擎将(Spider返回的)爬取到的Item给Item Pipeline,Scrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。
修改过Item Pipeline可以很方便的根据 key 从 items queue 提取item,从⽽实现items processes集群。
4、Base Spider
不在使用Scrapy原有的Spider类,重写的RedisSpider继承了Spider和RedisMixin这两个类,RedisMixin是用来从redis读取url的类。
当我们生成一个Spider继承RedisSpider时,调用setup_redis函数,这个函数会去连接redis数据库,然后会设置signals(信号):
1、一个是当spider空闲时候的signal,会调用spider_idle函数,这个函数调用schedule_next_request函数,保证spider是一直活着的状态,并且抛出DontCloseSpider异常。
2、一个是当抓到一个item时的signal,会调用item_scraped函数,这个函数会调用schedule_next_request函数,获取下一个request。
(四)总结
1、最后总结一下Scrapy-redis的总体思路:这套组件通过重写scheduler和spider类,实现了调度、spider启动和redis的交互。
2、实现新的dupefilter和queue类,达到了判重和调度容器和redis的交互,因为每个主机上的爬虫进程都访问同一个redis数据库,所以调度和判重都统一进行统一管理,达到了分布式爬虫的目的。
3、当spider被初始化时,同时会初始化一个对应的scheduler对象,这个调度器对象通过读取settings,配置好自己的调度容器queue和判重工具dupefilter。
4、每当一个spider产出一个request的时候,Scrapy引擎会把这个reuqest递交给这个spider对应的scheduler对象进行调度,scheduler对象通过访问redis对request进行判重,如果不重复就把他添加进redis中的调度器队列里。当调度条件满足时,scheduler对象就从redis的调度器队列中取出一个request发送给spider,让他爬取。
5、当spider爬取的所有暂时可用url之后,scheduler发现这个spider对应的redis的调度器队列空了,于是触发信号spider_idle,spider收到这个信号之后,直接连接redis读取strart_url池,拿去新的一批url入口,然后再次重复上边的工作。