读写冲突问题
参考【1】
更新丢失
更新丢失(Lost Update):当两个或多个事务选择同一行,然后基于最初选定的值更新该行时,由于每个事务都不知道其他事务的存在,就会发生丢失更新问题 —— 最后的更新覆盖了其他事务所做的更新。如何避免这个问题呢,最好在一个事务对数据进行更改但还未提交时,其他事务不能访问修改同一个数据。
当一个事务A正在修改X数据时,但是还没提交,事务B也修改了X数据,这个情况下就是更新丢失。
- 在使用锁解决冲突的情况下,事务A在修改X之前获得了X的X-lock,那么事务B是不可能更新X的。
- 在使用MVCC解决冲突的情况下,事务B也会由于可见性判断看不到事务A做出的更新,最多只能看到旧值。
脏读
脏读(Dirty Reads):一个事务正在对一条记录做修改,在这个事务并提交前,这条记录的数据就处于不一致状态;这时,另一个事务也来读取同一条记录,如果不加控制,第二个事务读取了这些尚未提交的脏数据,并据此做进一步的处理,就会产生未提交的数据依赖关系。这种现象被形象地叫做 “脏读”。
不可重复读
不可重复读(Non-Repeatable Reads):一个事务在多次读取某些数据时可能会看到数据已经更新或删除,这种现象叫做“不可重复读”。
幻读
幻读(Phantom Reads):一个事务按相同的查询条件重新读取以前检索过的数据,却发现其他事务插入了满足其查询条件的新数据,这种现象就称为 “幻读”。
隔离性级别
参考【2】
数据库是一个服务器/客户端架构的软件,对于同一个服务器来说,可以有若干个客户端与之连接,每个客户端与服务器连接上之后,就可以称之为一个会话(Session)。我们可以同时在不同的会话里输入各种语句,这些语句可以作为事务的一部分进行处理。不同的会话可以同时发送请求,也就是说服务器可能同时在处理多个事务,这样子就会导致不同的事务可能同时访问到相同的记录。我们前边说过事务有一个特性称之为隔离性,理论上在某个事务对某个数据进行访问时,其他事务应该进行排队,当该事务提交之后,其他事务才可以继续访问这个数据。但是这样子的话对性能影响太大,所以设计数据库的大叔提出了各种隔离级别,来最大限度的提升系统并发处理事务的能力,但是这也是以牺牲一定的隔离性来达到的。
未提交读(READ UNCOMMITTED)
如果一个事务读到了另一个未提交事务修改过的数据,那么这种隔离级别就称之为未提交读(英文名:READ UNCOMMITTED),示意图如下:
如果是READ UNCOMMITTED隔离级别,这种隔离级别就太低了,可能会发生读写冲突问题中的更新丢失和脏读问题。
已提交读(READ COMMITTED)
如果一个事务只能读到另一个已经提交的事务修改过的数据,并且其他事务每对该数据进行一次修改并提交后,该事务都能查询得到最新值,那么这种隔离级别就称之为已提交读(英文名:READ COMMITTED)。
在READ COMMITTED隔离级别下,可能会发生不可重复读的读写冲突,比如:
我们在Session B中提交了几个隐式事务,这些事务都修改了id为1的记录的列c的值,每次事务提交之后,Session A中的事务都可以查看到最新的值。这种现象也被称之为不可重复读。
可重复读 REPEATABLE READ
在一些业务场景中,一个事务只能读到另一个已经提交的事务修改过的数据,但是第一次读过某条记录后,即使其他事务修改了该记录的值并且提交,该事务之后再读该条记录时,读到的仍是第一次读到的值,而不是每次都读到不同的数据。那么这种隔离级别就称之为可重复读(英文名:REPEATABLE READ)
串行化 SERIALIZABLE
即使是可重复读,也会遇到串行化的问题,这个问题在《数据库系统概念》【3】中有非常详细的理论,包括冲突环的讲解。
一般情况下不会要求这么高的隔离性级别,毕竟串行化的并发度不是很好。
MVCC:解决冲突问题
第一次解出到MVCC,是postgresql的MVCC机制,可以参考【4】。还有一篇文章【2】也讲解了MVCC,这个可能是MySQL的MVCC机制。我觉得【2】文章写的很不错。
引用
【1】mysql处理读写冲突的MVCC:https://blog.csdn.net/cumtmonster/article/details/106669873
【2】MySQL事务隔离级别和MVCC:https://juejin.cn/post/6844903808376504327
【3】《数据库系统概念(计算机科学丛书)》
【4】interdb是postgresql的内幕讲解。https://www.interdb.jp/pg/pgsql05.html