分布式事务的基础概念,与本地事务不同的是,分布式系统之所以叫分布式,是因为提供服务的各个节点分布在不同的机器上,相互之间通过网络交互。不能因为有一点网络问题就导致整个系统无法提供服务,网络因素成为了分布式事务的考量标准之一,因此,分布式事务需要更进一步的理论支持。
CAP理论
理解cap
cap是 Consistency、Availability、Partition tolerance三个词语的缩写。分别表示 一致性、可用性、分区容忍性。
如下图,是商品信息管理的执行流程:
整体执行流程如下:
1、商品服务请求主数据写入商品信息
2、主数据库向商品服务响应写入成功
3、商品服务请求 从数据库 读取商品信息
C- Cosistency:
一致性是指写操作后的读操作可以读取到最新的数据状态,当数据分布在多个节点上,从任意结点读取到的数据都是最新的状态。
上图,商品信息的读写要满足一致性就是要实现如下目标:
1、商品服务写入主数据成功,则向 从数据库 查询新数据也成功
2、商品服务写入主数据成功,则向 从数据库 查询新数据也失败
如何实现一致性?
1、写入主数据库后要将数据同步到从数据库
2、写入主数据库后,在向 从数据库同步期间要将 从数据库 锁定,待同步完成再释放锁,以免在新数据写入成功后,向从数据库查询到旧的数据。
分布式系统一致性的特点:
1,由于存在数据同步的过程,写操作的响应会有一定的延迟
2、为了保证数据一致性会对资源暂时锁定,待数据同步完成释放锁定资源
A- Availability:
可用性是指任何事务操作都可以得到响应结果,且不会出现响应超时或响应错误。
上图中,商品信息读取满足可用性就是要实现如下目标:
1,从数据库 接收到数据查询请求则立即能够响应数据查询结果。
2,从数据库 不允许出现响应超时或响应错误。
如何实现可用性?
1、写入主数据后要将数据同步到 从数据库。
2、由于要保证 从数据库 的可用性,不可将 从数据库中的资源进行锁定。
3,即使数据还没有同步过来,从数据库也要返回要查询的数据,哪怕是旧数据,如果边旧数据也没有则可以按照约定返回一个默认信息,但不能返回错误或响应超时
分布式系统可用性的特点:
1、所有请求都有响应,且不会出现响应超时或响应错误
p- Partition tolerance
通常分布式系统的各结点部署在不同的子网,这就是网络分区,不可避免的会出现由于网络问题而导致结点之间通信失败,此时仍可以对外提供服务,这叫分区容忍性。
上图中,商品信息读写满足分区容忍性就是实现如下目标:
1、主数据库向 从数据库同步数据失败不影响读写操作。
2、其一个结点挂掉不影响另一个结点对外提供服务
如何实现分区容忍性?
1,尽量使用异步取代同步操作,例如使用异步方式将数据从主数据同步从数据,这样结点之间能有效的实现松耦合、
2、添加 从数据库结点,其中一个从结点挂掉其它从结点提供服务
分布式分区容忍性的特点:
1、分区容忍性是分布性系统具备的基本能力
CAP组合方式:
在所有分布式事务场景中不会同时具备CAP三个特征,因为在具备了P的前提下C和A是不能共存的。
组合方式1:AP
放弃一致性,追求分区容忍性和可用性,这是很多分布式系统设计时的选择
例如:上边的商品管理,完全可以实现AP,前提是只要用户可以接受所查询到的数据在一定时间内不是最新的即可。
通常实现AP 都会都会保证最终一致性,BASE理论就是根据AP来扩展的,一些业务场景 比如:订单退款,今日退款成功,明日帐户到帐,只要用户可以接受在一定时间内到帐即可
组合方式2:CP
放弃可用性,追求一致性和分区容忍性,我们的zookeeper其实就是追求的强一致性,又比如 跨行转帐,一次转帐请求要等等双方银行系统都完成整个事务才算完成
组合方式3: CA
放弃分区容忍性,即不进行分区,不考虑由于网络不通或结点挂掉的问题,则可以实现一致性和可用性。那么系统将不是一个标准的分布式系统,我们最常用的关系型数据就满足了CA
上边的商品管理,如果要实现CA则架构如下 :
主数据和从数据中间不再进行数据同步,数据库可以响应每次查询请求,通过事务隔离级别实现每个查询请求都可以返回最新的数据。
CAP总结:
一个分布式系统最多只能同时满足一致性,可用性,分区容忍性 这三项中的两项。它可以作为我们进行架构设计,技术选型的考量标准。对于多数大型互联网应用的场景,结点众多、部署分散,而且现在集群规模越来越大,所以节点故障、网络故障是常态,而且要保证服务可用性达到N个9(99.99…%),并要达到 良好响应性来提高用户体验,因此一般都会做出如下选择:保证P和A,舍弃C强一致,保证最终一致性。
Base理论:
1、理解强一致性和最终一致性
CAP理论告诉我们一个分布式系统最多只能同时满足一致性、可用性、分区容忍性 这三项的两项,其中AP 在实际应用中较多,AP舍弃一致性,保证可用性和分区容忍性,但是在实际生产中很多场景都要实现一致性,比如前边的 主数据库 向 从数据库 同步数据,即使不要一致性,但是最终也要将数据同步成功来保证数据一致,这种一致性和CAP中的一致性不同,CAP中的一致性要求在任何时间查询每个结点数据都必须一致,它强调的是强一致性,但是最终一致性是允许可以在一段时间内每个结点的数据不一致,但是经过一段时间每个结点的数据必须一致,它强调的是最终数据的一致性。
2、Base理论介绍
BASE 是 basically Available(基本可用)、Sort state(软状态)和Eventually consistent(最终一致性)三个短语的缩写。BASE理论是对CAP中AP的一个扩展,通过牺牲强一致性来获得可用性,当出现故障请允许部分不可用但要保证核心功能可用,允许数据在一段时间内是不一致的但最终达到一致状态。满足BASE理论的事务,我们称之为“柔性事务”。
基本可用 :分布式系统在出现故障时,允许损失部分可用功能,保证核发功能可用,如 电商网站交易付款出现问题了,商品依然可以正常浏览
软状态:由于不要求强一致性,所以BASE允许系统中存在中间状态(也叫软状态),这个状态不影响系统可用性,如订单的“支付中”、“数据同步中”等状态,待数据最终一致后状态改为“成功”状态
最终一致性:最终一致性是经过一段时间后,所有节点数据都将会达到一致。如订单的“支付中”状态,最终会变为“支付成功”或者“支付失败”,使订单与实际交易结果达成一致,但需要一定时间的延迟,等等。