MySQL深入浅出之全局锁和表锁和行锁-CFANZ编程社区

文章目录

1. 全局锁-给整个数据库实例加锁

1.1. 全局锁的使用场景之全库逻辑备份

2. 表级锁

2.1. 表锁
2.2. 元数据锁
2.3. 基于上面的分析，我们来讨论一个问题，**如何安全地给小表加字段？**

3. 总结
4. 行锁

4.1 行锁是如何减少锁冲突来提升业务并发度的呢?
4.2 死锁和死锁检测
4.3 怎么解决由这种热点行更新导致的性能问题呢?

总结
路过的大佬们给个三连加关注呗

mysql的锁设计初衷是处理并发问题, 作为多用户共享资源, 当出现并发访问时, 数据库需要合理地控制资源的访问规则, 而锁就是实现这些访问规则的重要数据结构.

根据加锁范围, MySql里面的锁可以分为全局锁, 表级锁, 行锁, 从大到小三类

MySQL深入浅出之全局锁和表锁和行锁_死锁

1. 全局锁-给整个数据库实例加锁

MySQL提供一个加全局锁的方法: Flush table with read lock (FTWRL)

-- FTWRL
mysql> flush tables with read lock;

当需要让整个数据库只读, 使用该命令, 导致其他线程一下语句阻塞(数据更新-增删改, 数据定义-建修表, 更新类事务提交语句)

1.1. 全局锁的使用场景之全库逻辑备份

把每个表都 select 出来存成文本, 以前的做法是通过FTWRL 确保不会有其他线程对数据库进行更新, 然后对整个库进行备份, 备份过程中, 整个库完全处于只读状态.

整个库只读的危险性?

如果主库备份, 那么备份期间不能执行更新, 业务停摆
如果从库备份, 那么备份期间无法执行主库同步过来的binlog, 导致主从延迟

备份如果不加锁的问题?

现在发起逻辑备份, 购买系统购买了一包辣条, 业务逻辑扣除余额, 然后在发货上一包辣条
如果时间顺序是先备份余额表, 然后用户购买, 然后备份辣条数量, 这就导致余额没有扣除, 但是辣条少了一包, 顾客赚翻了
如果先备份辣条表, 用户购买, 然后备份余额表, 辣条没少, 余额少了, 客户疯了

所以上述如果不加锁, 备份的系统库不是一个逻辑时间点, 视图与逻辑不一致, 这里有一个方法能够拿到一致性视图

可重复读隔离级别开启一个任务?

官方自带逻辑备份工具 mysqldump -single-transaction 导数据就会启动一个事务, 确保一致性视图

有了这么好的工具, 为啥官网还要FTWRL呢?

这是因为一致性读好, 但是需要支持隔离级别的引擎, 很不巧, 除了不能crash safe, MyISAM这种也不支持事务的垃圾引擎 就凉了

为什么不适用 set global readonly=true 这种方式进行全库只读呢?

readonly值会被用来做其他逻辑, 比如判断一个库是主库还是备用库, 因此修改global变量的方式影响面很大, 不建议使用
异常处理机制中, 如果执行FTWRL命令后, 客户端异常断开, 那么MySql会自动释放这个全局锁, 整个库回到可更新状态, 如果将整个库设置为readonly, 客户端发生异常就会让数据库保持readonly, 这样会导致整个库长时间不可写状态, 风险较高

业务更新不只是对数据增删改查**(DML), 还可能加字段等修改表结构的操作(DDL)** 这里就算没被全局锁锁住, 如果要加字段, 也会碰到表级锁

2. 表级锁

MySQL里面表级别的锁有两种：一种是表锁，一种是元数据锁（meta data lock，MDL)。

2.1. 表锁

**表锁的语法是 lock tables … read/write。**与FTWRL类似，可以用unlock tables主动释放锁，也可以在客户端断开的时候自动释放。需要注意，lock tables语法除了会限制别的线程的读写外，也限定了本线程接下来的操作对象。

mysql> lock tables tab_name read/write;
-- unlock tables tab_name ;

举个例子, 如果在某个线程A中执行lock tables t1 read, t2 write; 这个语句，则其他线程写t1、读写t2的语句都会被阻塞。同时，线程A在执行unlock tables之前，也只能执行读t1、读写t2的操作。连写t1都不允许，自然也不能访问其他表。

在还没有出现更细粒度的锁的时候，表锁是最常用的处理并发的方式。而对于InnoDB这种支持行锁的引擎，一般不使用lock tables命令来控制并发，毕竟锁住整个表的影响面还是太大。

2.2. 元数据锁

另一类表级的锁是元数据锁MDL（metadata lock)。
你可以想象一下，如果一个查询正在遍历一个表中的数据，而执行期间另一个线程对这个表结构做变更，删了一列，那么查询线程拿到的结果跟表结构对不上，肯定是不行的。

MDL作用是保证读写的正确性，MySQL5.5版本引入。MDL不需要显式使用，在访问一个表的时候会被自动加上。
当对一个表做增删改查操作时，加MDL读锁。
当需要对表做结构变更操作时，加MDL写锁。
读锁直接不互斥。因此可以有多个线程同时对一张表增删改查。
读写锁直接、写锁之间是互斥的，用来保证变更表结构操作的安全性。因此，如果2个线程同时给一个表加字段，其中一个要等另外一个执行完成才能开始执行。

虽然MDL锁是系统默认会加的，但却是你不能忽略的一个机制。比如下面这个例子，我经常看到有人掉到这个坑里：给一个小表加个字段，导致整个库挂了。

你肯定知道，给一个表加字段，或者修改字段，或者加索引，需要扫描全表的数据。在对大表操作的时候，你肯定会特别小心，以免对线上服务造成影响。而实际上，即使是小表，操作不慎也会出问题。我们来看一下下面的操作序列，假设表t是一个小表。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QWaUxipC-1625470649773)(E:\Users\oneDriver\OneDrive - Office\05_找工作的安排\work\03_sql\MySQL实战45讲\graph\image-20210705152330369.png)]

我们可以看到session A先启动，这时候会对表t加一个MDL读锁。由于session B需要的也是MDL读锁，因此可以正常执行。

之后session C会被blocked，是因为session A的MDL读锁还没有释放，而session C需要MDL写锁，因此只能被阻塞。

如果只有session C自己被阻塞还没什么关系，但是之后所有要在表t上新申请MDL读锁的请求也会被session C阻塞。前面我们说了，所有对表的增删改查操作都需要先申请MDL读锁，就都被锁住，等于这个表现在完全不可读写了。

如果某个表上的查询语句频繁，而且客户端有重试机制，也就是说超时后会再起一个新session再请求的话，这个库的线程很快就会爆满。

你现在应该知道了，事务中的MDL锁，在语句执行开始时申请，但是语句结束后并不会马上释放，而会等到整个事务提交后再释放。

2.3. 基于上面的分析，我们来讨论一个问题，如何安全地给小表加字段？

首先我们要解决长事务，事务不提交，就会一直占着MDL锁。在MySQL的information_schema 库的 innodb_trx 表中，你可以查到当前执行中的事务。如果你要做DDL变更的表刚好有长事务在执行，要考虑先暂停DDL，或者kill掉这个长事务。

但考虑一下这个场景。如果你要变更的表是一个热点表，虽然数据量不大，但是上面的请求很频繁，而你不得不加个字段，你该怎么做呢？

这时候kill可能未必管用，因为新的请求马上就来了。比较理想的机制是，在alter table语句里面设定等待时间，如果在这个指定的等待时间里面能够拿到MDL写锁最好，拿不到也不要阻塞后面的业务语句，先放弃。之后开发人员或者DBA再通过重试命令重复这个过程。

MariaDB已经合并了AliSQL的这个功能，所以这两个开源分支目前都支持DDL NOWAIT/WAIT n这个语法。

ALTER TABLE tbl_name NOWAIT add column ...
ALTER TABLE tbl_name WAIT N add column ...

3. 总结

全局锁主要用在逻辑备份过程中。对于全部是InnoDB引擎的库，我建议你选择使用–single-transaction参数，对应用会更友好。
表锁一般是在数据库引擎不支持行锁的时候才会被用到的。如果你发现你的应用程序里有lock tables这样的语句，你需要追查一下，比较可能的情况是：

要么是你的系统现在还在用MyISAM这类不支持事务的引擎，那要安排升级换引擎；
要么是你的引擎升级了，但是代码还没升级。我见过这样的情况，最后业务开发就是把lock tables 和 unlock tables 改成 begin 和 commit，问题就解决了。

MDL会直到事务提交才释放，在做表结构变更的时候，你一定要小心不要导致锁住线上查询和更新。
备份一般都会在备库上执行，你在用–single-transaction方法做逻辑备份的过程中，如果主库上的一个小表做了一个DDL，比如给一个表上加了一列。这时候，从备库上会看到什么现象呢？

4. 行锁

mysql的行锁属于各个引擎自己的功能
不是所有的引擎都有行锁, 比如MyISam, 这也是InnoDB替代他的原因
不支持行锁, 意味着并发控制只能使用表锁, 同一张表任意时刻只能有一个更新执行, 会影响业务并发度

4.1 行锁是如何减少锁冲突来提升业务并发度的呢?

顾明司仪, 行锁针对数据表中的记录行上锁, 比如事务A更新了一行, 而这个时候, 事务B也更新同一行, 则A完成后B才能操作

MySQL深入浅出之全局锁和表锁和行锁_数据库_02

事务B的update语句执行时会是什么现象呢
这个结果取决于事务A执行完两条update之后, 有那些锁, 在什么时候释放
实际上, 事务B将会被阻塞, 直到事务Acommit之后, 事务B继续执行
则是因为A持有两个记录的行锁, 都是在commit之后才释放的

具体而言: InnoDB事务中, 行锁是在需要的时候才加上的, 并不是不需要了就会被立即释放, 而是等到事务结束才会被释放

知道了这个设定, 对我们使用事务有啥帮助呢?

如果你的事务中需要锁多个行, 就把最可能造成锁冲突, 最可能影响并发度的锁尽量往后放
假设你负责一个电影院在线交易业务, 顾客A在影院B买票:

从顾客A账户扣除票价
给影院B余额增加票价
记录一条交易记录
也就是说我们需要两条update记录, 一条insert记录, 为了保证原子性, 我们把三个操作放到一个事务中, 那么你会怎么安排这三条语句在事务中的记录顺序呢?

试想如果同时有另外一个顾客C要在影院B买票, 两个事务冲突的部分是语句2, 因为要更新同一个影院余额, 需要修改同一行数据;
根据两个阶段锁协议, 不管怎么安排语句顺序, 所有操作需要的行锁都是事务提交的时候才释放的, 所以如果语句2安排在最后, 比如3,1,2这样的顺序, 那么影院账户余额这行的锁时间最少, 这就最大程度地减少了事务之间的锁的等待, 提升并发度.

由于合理的设计, 影院余额这一行的行锁在一个事务中停留的不会太长时间, 但是接下来又出现了新问题了:

如果影院这次做活动, 可以低价预售一年所有电影票, 活动只有一天, 于是活动开始的时候, 你的MySql就挂了, 你登上服务器一看, CPU100%, 整个数据库每秒执行不到100个事务, 这是什么原因呢? 答案是: 死锁和死锁检测

4.2 死锁和死锁检测

当并发系统中不同线程出现循环资源依赖, 涉及的线程都在等待别的资源释放资源, 会导致这几个线程进入无限等待状态, 称之为死锁 , 这里我们用数据库中的行锁举例子

MySQL深入浅出之全局锁和表锁和行锁_死锁_03

当出现上面死锁状态, 下面有两种解除死锁的策略

直接进入等待, 直到超时 innodb_lock_wait_timeout 设置
发起死锁检测, 发现死锁后, 主动回滚死锁链条中的某一个事务, 让其他事务得以继续执行 innodb_deadlock_detect设置为on

第一种策略的问题:
在InnoDB中, innodb_lock_wait_timeout的默认值是50s 意味着如果第一种策略, 死锁50s才会取消, 其他线程才能继续执行, 但是如果我们把时间设置太小, 当死锁出现后很快解开, 单如果不是死锁, 仅仅是反方面等待, 就会误伤线程

第二种策略
主动监测死锁 ,且innodb_deadlock_detect的默认值本身就是on, 主动死锁检测发生死锁时候, 能够快速发现并进行处理, 但是他会有额外负担, 因为当一个事务被锁, 就要看它所依赖的线程有没有被人占如此循环, 最后判断是否出现循环等待

那如果像我们上面所说所有的事务都是更新同一行场景呢?
每个新来的都被堵住线程, 都需要判断是不是因为自己的加入导致了死锁, 这是一个时间复杂度为O(n)的操作. 如果1000个并发线程同时更新同一行, 死锁检测操作就是100万这个量级的. 虽然最终检测结果没有死锁, 但是这其中需要消耗很大的CPU资源, 因此我们会看到CPU利用率很高, 但是每秒却执行不了几个任务;

4.3 怎么解决由这种热点行更新导致的性能问题呢?

三种解决方案: 关掉死锁检测<控制并发<单条拆分多条
问题的症结在于，死锁检测要耗费大量的CPU资源。

如果你能确保这个业务一定不会出现死锁，可以临时把死锁检测关掉: 但是这种操作本身带有一定的风险，因为业务设计的时候一般不会把死锁当做一个严重错误，毕竟出现死锁了，就回滚，然后通过业务重试一般就没问题了，这是业务无损的。而关掉死锁检测意味着可能会出现大量的超时，这是业务有损的。
控制并发度: 根据上面的分析，你会发现如果并发能够控制住，比如同一行同时最多只有10个线程在更新，那么死锁检测的成本很低，就不会出现这个问题。一个直接的想法就是，在客户端做并发控制。但是，你会很快发现这个方法不太可行，因为客户端很多。我见过一个应用，有600个客户端，这样即使每个客户端控制到只有5个并发线程，汇总到数据库服务端以后，峰值并发数也可能要达到3000。
因此，这个并发控制要做在数据库服务端。如果你有中间件，可以考虑在中间件实现；如果你的团队有能修改MySQL源码的人，也可以做在MySQL里面。基本思路就是，对于相同行的更新，在进入引擎之前排队。这样在InnoDB内部就不会有大量的死锁检测工作了。

如果团队里暂时没有数据库方面的专家，不能实现这样的方案，能不能从设计上优化这个问题呢？

你可以考虑通过将一行改成逻辑上的多行来减少锁冲突。还是以影院账户为例，可以考虑放在多条记录上，比如10个记录，影院的账户总额等于这10个记录的值的总和。这样每次要给影院账户加金额的时候，随机选其中一条记录来加。这样每次冲突概率变成原来的1/10，可以减少锁等待个数，也就减少了死锁检测的CPU消耗。
这个方案看上去是无损的，但其实这类方案需要根据业务逻辑做详细设计。如果账户余额可能会减少，比如退票逻辑，那么这时候就需要考虑当一部分行记录变成0的时候，代码要有特殊处理。

总结

在开发的时候如何安排正确的事务语句?
如果你的事务中需要锁多个行，要把最可能造成锁冲突、最可能影响并发度的锁的申请时机尽量往后放。但是，调整语句顺序并不能完全避免死锁。所以我们引入了死锁和死锁检测的概念，以及提供了三个方案，来减少死锁对数据库的影响。减少死锁的主要方向，就是控制访问相同资源的并发事务量。