mysql数据库的复制集，分布式

复制集（Replication）
- 数据库中数据相同，起到备份作用
- 高可用 High Available HA
分布式（Distribution）
- 数据库中数据不同，共同组成完整的数据集合
- 通常每个节点被称为一个分片（shard)
- 高吞吐 High Throughput
复制集与分布式可以单独使用，也可以组合使用（即每个分片都组建一个复制集）
关于主（Master）从（Slave）
- 这个概念是从使用的角度来阐述问题的
- 主节点 -> 表示程序在这个节点上最先更新数据
- 从节点 -> 表示这个节点的数据是要通过复制主节点而来
- 复制集可选主从、主主、主主从从
- 分布式每个分片都是主，组合使用复制集的时候，复制集的是从

MySQL的主从复制：

做数据备份
配合读写分离，提供吞吐量（master：写，slave：读）
高可用

复制分成三步：

master将改变记录到二进制日志(binary log)中（这些记录叫做二进制日志事件，binary log events）；
slave将master的binary log events拷贝到它的中继日志(relay log)；
slave重做中继日志中的事件，将改变反映它自己的数据。

下图描述了这一过程：

mysql数据库的复制集，分布式

该过程的第一部分就是master记录二进制日志。在每个事务更新数据完成之前，master在二日志记录这些改变。MySQL将事务串行的写入二进制日志，即使事务中的语句都是交叉执行的。在事件写入二进制日志完成后，master通知存储引擎提交事务。

下一步就是slave将master的binary log拷贝到它自己的中继日志。首先，slave开始一个工作线程——I/O线程。I/O线程在master上打开一个普通的连接，然后开始binlog dump process。Binlog dump process从master的二进制日志中读取事件，如果已经跟上master，它会睡眠并等待master产生新的事件。I/O线程将这些事件写入中继日志。

SQL slave thread处理该过程的最后一步。SQL线程从中继日志读取事件，更新slave的数据，使其与master中的数据一致。只要该线程与I/O线程保持一致，中继日志通常会位于OS的缓存中，所以中继日志的开销很小。

此外，在master中也有一个工作线程：和其它MySQL的连接一样，slave在master中打开一个连接也会使得master开始一个线程。

利用主从在达到高可用的同时，也可以通过读写分离提供吞吐量。

对读未提交，读已提交没有影响；对可重复读有影响，在slave上的数据，master读不到。