Elasticsearch定义
- elastic(弹性、灵活)+search(搜索)
- Elasticsearch 是一个支持分布式、高扩展、高实时的高效搜索与数据分析引擎。
- 支持分布式实时文件存储。
- 支持将字段值都编入索引,使其可以被搜索。
- 实时分析的分布式搜索引擎。
- 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
- Elasticsearch 的实现原理主要分为以下几个步骤
- 用户将数据提交到Elasticsearch 数据库中。
- es通过分词控制器去将对应的语句分词。(这里如需更高级的策略优化,后期可以替换分词器)。
- 将其权重和分词结果一并存入数据库。
- 当用户搜索数据时候,根据权重将结果排名,打分(相关度)。
- 将返回结果呈现给用户。
- 有关概念
- cluster:代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。
shards:代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。
replicas:代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。
recovery:代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。
river:代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。
gateway:代表es索引快照的存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储,当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。
discovery.zen:代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。
Transport:代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。
ES重点算法
倒排索引
- 例如插入几条数据
- _id可自定义,如果没有定义,会自动生成_id。同时,es内置还会生成一个id。
- 灵魂拷问:_id可以作为id使用吗?
{ |
- 那么理想倒排索引为:
school_name |
- 对层级对象如何建立索引?
- 多层级对象文档
{ |
映射为:
{ |
- JSON 格式的文档被处理成如下的扁平式键值对的结构。
- 数组嵌套文档的风险
{ |
如下查询会被搜索出:
GET /_search |
解决方案:嵌套对象
字典树
- Elasticsearch为了能快速找到某个term,将所有的term排个序,生成Term Index,二分法查找term,logN的查找效率。
- 字典树介绍
- 不需要存下所有的term,而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系,再结合FST(Finite State Transducers)的压缩技术,可以使term index缓存到内存中。从term index查到对应的term dictionary的block位置之后,再去磁盘上找term,大大减少了磁盘随机读的次数。
Posting List增量压缩
- Posting list就是一个int的数组,存储了所有符合某个term的文档id。
- [1,2,3,5,10]==>[1,1,1,2,5]
- 通过增量,将原来的大数变成小数仅存储增量值,再通过Roaring bitmaps压缩
- 可以高效联合索引:利用跳表(Skip list)的数据结构快速做“与”运算,或者利用bitset按位“与”
相关度加权
- 控制相关度(主要应用于多关键词搜索)
- 当匹配到一组文档后,需要根据相关度排序这些文档,不是所有的文档都包含所有词,有些词比其他的词更重要。一个文档的相关度评分部分取决于每个查询词在文档中的权重。
- 检索词频率
- 检索词在该字段出现的频率?出现频率越高,相关性也越高。 字段中出现过 5 次要比只出现过 1 次的相关性高。如:检索词 honeymoon 在这个文档的 tweet 字段中的出现次数。
- 反向文档频率
- 每个检索词在索引中出现的频率?频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。如:检索词 honeymoon 在索引上所有文档的 tweet 字段中出现的次数。
- 字段长度准则
- 字段的长度是多少?长度越长,相关性越低。 检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。如:在这个文档中, tweet 字段内容的长度 -- 内容越长,值越小。