背景

当前线下测试环境出现了坏一块NVME SSD盘后，业务无法再分配新的block的现象，随后整个集群的IOPS都跌到0的现象。理论上数据路径底层通过异步接口、通过多数派机制，应该可以避免单点故障导致的全集群IOPS跌到0的故障放大效应。预期和实际表现的不同，要求我们需要模拟真实的坏盘/慢盘故障，复现当时故障的现象，分析所有可能出现的影响，并尽量减小甚至消灭这种影响。

故障模拟

常见的NVME SSD故障包括使用过程中掉盘(lspci 看不到故障盘）、变砖（固态硬盘用户数据完全丢失甚至无法识别硬盘）、卡断（iops很低/ioutil 很高/延时很大）等现象。这些现象可以在SSD 主控固件内模拟，但EBS/ESSD位于业务层无法直接调用SSD主控相关接口，因此只能通过系统软件层和业务调用层去模拟。

坏盘故障模拟

系统软件层模拟方法 NVME SSD可以通过ssd 下线的办法去模拟，参考命令如下：

Run one of the following commands to safely remove the drive
“echo 1 > /sys/bus/pci/devices/0000:B:D:F /remove” or 
“echo 0 > /sys/bus/pci/slots/$slot/power”

示例如下：