0
点赞
收藏
分享

微信扫一扫

Elasticsearch整理笔记(一)


Elasticsearch定义

  • elastic(弹性、灵活)+search(搜索)
  • Elasticsearch 是一个支持分布式、高扩展、高实时的高效搜索与数据分析引擎。
  • 支持分布式实时文件存储。
  • 支持将字段值都编入索引,使其可以被搜索。
  • 实时分析的分布式搜索引擎。
  • 可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据。
  • Elasticsearch 的实现原理主要分为以下几个步骤
  • 用户将数据提交到Elasticsearch 数据库中。
  • es通过分词控制器去将对应的语句分词。(这里如需更高级的策略优化,后期可以替换分词器)。
  • 将其权重和分词结果一并存入数据库。
  • 当用户搜索数据时候,根据权重将结果排名,打分(相关度)。
  • 将返回结果呈现给用户。
  • 有关概念
  • cluster:代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。
    shards:代表索引分片,es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引拆分成多个,分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定,并且索引创建后不能更改。
    replicas:代表索引副本,es可以设置多个索引的副本,副本的作用一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率,es会自动对搜索请求进行负载均衡。
    recovery:代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。
    river:代表es的一个数据源,也是其它存储方式(如:数据库)同步数据到es的一个方法。它是以插件方式存在的一个es服务,通过读取river中的数据并把它索引到es中,官方的river有couchDB的,RabbitMQ的,Twitter的,Wikipedia的。
    gateway:代表es索引快照的存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储,当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和amazon的s3云存储服务。
    discovery.zen:代表es的自动发现节点机制,es是一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。
    Transport:代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。

ES重点算法

倒排索引

  • 例如插入几条数据
  • _id可自定义,如果没有定义,会自动生成_id。同时,es内置还会生成一个id。
  • 灵魂拷问:_id可以作为id使用吗?

​​{  ​​
​​_id:​​​​"10001"​​​​, ​​
​​school_name:​​​​"佳木斯第一中学“,​​
​​grade:”一年级“,​​
​​class:”二班“,​​
​​student_name:”张三“,​​
​​}​​
​​{ ​​
​​_id:"​​​​10002​​​​", ​​
​​school_name:"​​​​佳木斯第二中学“,​​
​​grade:”一年级“,​​
​​class:”二班“,​​
​​student_name:”李四“,​​
​​}​​
​​{ ​​
​​_id:​​​​"10003"​​​​, ​​
​​school_name:"佳木斯第一中学“,​​
​​grade:”一年级“,​​
​​class:”三班“,​​
​​student_name:”王五“,​​
​​}​​

  • 那么理想倒排索引为:

​​school_name​​
​​{ ​​
​​"佳木斯第一中学"​​​​:[1,3],​​
​​"佳木斯第二中学"​​​​:[2]​​
​​}​​
​​grade​​
​​{​​
​​"一年级"​​​​:[1,2,3]​​
​​}​​
​​class​​
​​{​​
​​"二班"​​​​:[1,2],​​
​​"三班"​​​​:[3]​​
​​}​​
​​student_name​​
​​{​​
​​"张三"​​​​:[1],​​
​​"李四"​​​​:[2],​​
​​"王五"​​​​:[3]​​
​​}​​

  • 对层级对象如何建立索引?
  • ​​多层级对象文档​​

​​{​​
​​"gb"​​​​: {​​
​​"tweet"​​​​: {​​
​​"properties"​​​​: {​​
​​"tweet"​​​​: { ​​​​"type"​​​​: ​​​​"string"​​​ ​​},​​
​​"user"​​​​: {​​
​​"type"​​​​: ​​​​"object"​​​​,​​
​​"properties"​​​​: {​​
​​"id"​​​​: { ​​​​"type"​​​​: ​​​​"string"​​​ ​​},​​
​​"gender"​​​​: { ​​​​"type"​​​​: ​​​​"string"​​​ ​​},​​
​​"age"​​​​: { ​​​​"type"​​​​: ​​​​"long"​​​ ​​},​​
​​"name"​​​​: {​​
​​"type"​​​​: ​​​​"object"​​​​,​​
​​"properties"​​​​: {​​
​​"full"​​​​: { ​​​​"type"​​​​: ​​​​"string"​​​ ​​},​​
​​"first"​​​​: { ​​​​"type"​​​​: ​​​​"string"​​​ ​​},​​
​​"last"​​​​: { ​​​​"type"​​​​: ​​​​"string"​​​ ​​}​​
​​}​​
​​}​​
​​}​​
​​}​​
​​}​​
​​}​​
​​}​​
​​}​​

映射为:

​​{​​
​​"tweet"​​​​: [elasticsearch, flexible, very],​​
​​"user.id"​​​​: [​​​​@johnsmith​​​​],​​
​​"user.gender"​​​​: [male],​​
​​"user.age"​​​​: [​​​​26​​​​],​​
​​"user.name.full"​​​​: [john, smith],​​
​​"user.name.first"​​​​: [john],​​
​​"user.name.last"​​​​: [smith]​​
​​}​​

  • JSON 格式的文档被处理成如下的扁平式键值对的结构。
  • 数组嵌套文档的风险 

​​{​​
​​"title"​​​​: ​​​​"Nest eggs"​​​​,​​
​​"body"​​​​: ​​​​"Making your money work..."​​​​,​​
​​"tags"​​​​: [ ​​​​"cash"​​​​, ​​​​"shares"​​​ ​​],​​
​​"comments"​​​​: [​​
​​{​​
​​"name"​​​​: ​​​​"John Smith"​​​​,​​
​​"comment"​​​​: ​​​​"Great article"​​​​,​​
​​"age"​​​​: ​​​​28​​​​,​​
​​"stars"​​​​: ​​​​4​​​​,​​
​​"date"​​​​: ​​​​"2014-09-01"​​
​​},​​
​​{​​
​​"name"​​​​: ​​​​"Alice White"​​​​,​​
​​"comment"​​​​: ​​​​"More like this please"​​​​,​​
​​"age"​​​​: ​​​​31​​​​,​​
​​"stars"​​​​: ​​​​5​​​​,​​
​​"date"​​​​: ​​​​"2014-10-22"​​
​​}​​
​​]​​
​​}​​

如下查询会被搜索出:

​​GET /_search​​
​​{​​
​​"query"​​​​: {​​
​​"bool"​​​​: {​​
​​"must"​​​​: [​​
​​{ ​​​​"match"​​​​: { ​​​​"name"​​​​: ​​​​"Alice"​​​ ​​}},​​
​​{ ​​​​"match"​​​​: { ​​​​"age"​​​​: ​​​​28​​​ ​​}}​​
​​]​​
​​}​​
​​}​​
​​}​​

解决方案:​​嵌套对象​​

字典树

  • Elasticsearch为了能快速找到某个term,将所有的term排个序,生成Term Index,二分法查找term,logN的查找效率。
  • ​​字典树介绍​​
  • 不需要存下所有的term,而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系,再结合FST(Finite State Transducers)的压缩技术,可以使term index缓存到内存中。从term index查到对应的term dictionary的block位置之后,再去磁盘上找term,大大减少了磁盘随机读的次数。

Posting List增量压缩

  • Posting list就是一个int的数组,存储了所有符合某个term的文档id。
  • [1,2,3,5,10]==>[1,1,1,2,5]
  • 通过增量,将原来的大数变成小数仅存储增量值,再通过Roaring bitmaps压缩
  • 可以高效联合索引:利用跳表(Skip list)的数据结构快速做“与”运算,或者利用bitset按位“与”

相关度加权

  • ​​控制相关度​​(主要应用于多关键词搜索)
  • 当匹配到一组文档后,需要根据相关度排序这些文档,不是所有的文档都包含所有词,有些词比其他的词更重要。一个文档的相关度评分部分取决于每个查询词在文档中的权重。
  • 检索词频率
  • 检索词在该字段出现的频率?出现频率越高,相关性也越高。 字段中出现过 5 次要比只出现过 1 次的相关性高。如:检索词 honeymoon 在这个文档的 tweet 字段中的出现次数。
  • 反向文档频率
  • 每个检索词在索引中出现的频率?频率越高,相关性越低。检索词出现在多数文档中会比出现在少数文档中的权重更低。如:检索词 honeymoon 在索引上所有文档的 tweet 字段中出现的次数。
  • 字段长度准则
  • 字段的长度是多少?长度越长,相关性越低。 检索词出现在一个短的 title 要比同样的词出现在一个长的 content 字段权重更大。如:在这个文档中, tweet 字段内容的长度 -- 内容越长,值越小。
举报

相关推荐

0 条评论