在介绍纠删码读写之前,我们先看下ceph处理IO的流程,借鉴别人提供的图片如下:
从该图我们可以看到从前端的业务文件到数据保存到存储硬盘上的过程,步骤如下:
1. File->Object映射
RADOS中需要配置object的大小,一般会设置为2M到4M的大小。当用户写入数据文件时,首先会根据object的大小值将file进行切分。如果file的大小不足object的大小,则直接按照原大小映射到一个object中;如果file的大小大于object大小,则file会被切分若干个完整大小的object和一个不完整大小的object。
a. ino (File的元数据,File的唯一id)。
b. ono(File切分产生的某个object的序号,默认以4M切分一个块大小)。
c. oid(object id: ino + ono)。
2. Object->PG映射
Object是RADOS需要的对象。Ceph指定一个静态hash函数计算oid的值,将oid映射成一个近似均匀分布的伪随机值,然后和mask按位相与,得到pgid。
a. hash(oid) & mask-> pgid 。
b. mask = PG总数m(m为2的整数幂)-1 。
3.PG->OSD映射
PG(Placement Group),用途是对object的存储进行组织和位置映射, (类似于redis cluster里面的slot的概念) 一个PG里面会有很多object。采用CRUSH算法,将pgid代入其中,然后得到一个OSD set 。 在三副本replicated下,set中就会有三个osd,其中第一个就是primary osd,负责接收读写请求和维护一致性以及进行修复。后两个是replicated osd。
a. CRUSH(pgid)->(osd1,osd2,osd3)
4. 写数据
client先将数据写到primary osd上,然后再由primary osd写到replicated osd上。具体流程如下:
(1) 通过第2步(pg->osd映射)确定primary osd,client找到primary osd,并将Object写入其上;
(2) 再由primary osd写到osd set中的secondary osd 和 third osd上;
(3) secondary和third osd 接收到object,写入后会给primary发送一个ACK,确认已经写入成功;
(4) 当primary osd在接收到另外两个都已经写入的确认后,向client发送一个ACK,表示此object已经写入完成。
此时一个object的写过程已经结束了。其中第1步是在client上进行即数据走的南北网络,第2步是在集群内部进行走的是东西网络,而3,4步是client与primary直接联系,减少了cluster中需要传输的数据总量。
纠删码读写
纠删码的原理在这里不做详细介绍了,假设k=3 m=2 k+m的纠删码,k指数据盘个数,m指校验盘个数,使用编码算法,通过k个原始数据生成k+m个数据,及允许m个数据盘出现故障,数据仍然不会丢失。
同上面介绍的一个object通过crush会将对象映射到不同的osd,例如3+2的纠删码,osd set为【osd1 osd2 osd 3 osd4 osd5】。纠删码编码和解码的运算过程是在primary osd上做的,client完全写object到primary osd即osd1上。然后根据纠删码参数设置(k为数据块,m为校验块),将object在primary osd上切分为k个chunk或者说是fragment。若原来的object不能被k整除,则会进行填充,以保证每个chunk的大小相同。每个chunk的obj_name都相同。
使用纠删码,object会被切分为k+m个chunk。第一个chunk存放在primary osd上,剩余的k+m个chunk,primary osd会依次放松到相应的osd上。
在读取文件的时候,primary osd会手机响应osd上的chunk,然后在primary上恢复(即解码)原来的object,发给client。primary osd会优先收集数据块进行拼接重建出原始object,编码块用于恢复出丢失的块。