0
点赞
收藏
分享

微信扫一扫

LSM树——Log-Structured Merge-Tree数据结构、LSM树设计思想、LSM的数据写入操作、LSM的数据查询操作

承蒙不弃 2022-01-10 阅读 93

LSM树数据结构

简介

传统关系型数据库,一般都选择使用B+树作为索引结构,而在大数据场景下,HBase、Kudu这些存储引擎选择的是LSM树。LSM树,即日志结构合并树(Log-Structured Merge-Tree)。

  • LSM树主要目标是快速建立索引

  • B+树是建立索引的通用技术,但如果并发写入压力较大时,B+树需要大量的磁盘随机IO,而严重影响索引创建的速度,在一些写入操作非常频繁的应用场景中,就不太适合了

  • LSM树通过磁盘的顺序写,来实现最好的写性能

LSM树设计思想

在这里插入图片描述

  • LSM 的主要思想是划分不同等级的结构,换句话来理解,就是LSM中不止一个数据结构,而是存在多种结构

  • 一个结构在内存、其他结构在磁盘(HBase存储结构中,有内存——MemStore、也有磁盘——StoreFile)

  • 内存的结构可以是B树、红黑树、跳表等结构(HBase中是跳表),磁盘中的树就是一颗B+树

  • C0层保存了最近写入的数据,数据都是有序的,而且可以随机更新、随机查询

  • C1到CK层的数据都是存在磁盘中,每一层中key都是有序存储的

LSM的数据写入操作

  • 首先将数据写入到WAL(Write Ahead log),写日志是顺序写,效率相对较高(PUT、DELETE都是顺序写)

  • 数据项写入到内存中的C0结构中

  • 只有内存中的C0结构超过一定阈值的时候,将内存中的C0、和C1进行合并。这个过程就是Compaction(合并)

  • 合并后的新的C1顺序写磁盘,替换之前的C1

  • 但C1层达到一定的大小,会继续和下层合并,合并后旧的文件都可以删除,只保留最新的

  • 整个写入的过程只用到了内存结构,Compaction由后台异步完成,不阻塞写入

LSM的数据查询操作

  • 先在内存中查C0层

  • 如果C0层中不存在数据,则查询C1层

  • 不断逐层查询,最早的数据在CK层

  • C0层因为是在内存中的结构中查询,所以效率较高。因为数据都是分布在不同的层结构中,所以一次查询,可能需要多次跨层次结构查询,所以读取的速度会慢一些。

  • 根据以上,LSM树结构的程序适合于写密集、少量查询的场景

举报

相关推荐

0 条评论