Elasticsearch整理笔记（一）-CFANZ编程社区

Elasticsearch定义

elastic(弹性、灵活）+search（搜索）
Elasticsearch 是一个支持分布式、高扩展、高实时的高效搜索与数据分析引擎。

支持分布式实时文件存储。
支持将字段值都编入索引，使其可以被搜索。
实时分析的分布式搜索引擎。
可以扩展到上百台服务器，处理PB级别的结构化或非结构化数据。

Elasticsearch 的实现原理主要分为以下几个步骤

用户将数据提交到Elasticsearch 数据库中。
es通过分词控制器去将对应的语句分词。（这里如需更高级的策略优化，后期可以替换分词器）。
将其权重和分词结果一并存入数据库。
当用户搜索数据时候，根据权重将结果排名，打分（相关度）。
将返回结果呈现给用户。

有关概念

cluster：代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。es的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看es集群，在逻辑上是个整体，你与任何一个节点的通信和与整个es集群通信是等价的。
shards：代表索引分片，es可以把一个完整的索引分成多个分片，这样的好处是可以把一个大的索引拆分成多个，分布到不同的节点上。构成分布式搜索。分片的数量只能在索引创建前指定，并且索引创建后不能更改。
replicas：代表索引副本，es可以设置多个索引的副本，副本的作用一是提高系统的容错性，当某个节点某个分片损坏或丢失时可以从副本中恢复。二是提高es的查询效率，es会自动对搜索请求进行负载均衡。
recovery：代表数据恢复或叫数据重新分布，es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配，挂掉的节点重新启动时也会进行数据恢复。
river：代表es的一个数据源，也是其它存储方式（如：数据库）同步数据到es的一个方法。它是以插件方式存在的一个es服务，通过读取river中的数据并把它索引到es中，官方的river有couchDB的，RabbitMQ的，Twitter的，Wikipedia的。
gateway：代表es索引快照的存储方式，es默认是先把索引存放到内存中，当内存满了时再持久化到本地硬盘。gateway对索引快照进行存储，当这个es集群关闭再重新启动时就会从gateway中读取索引备份数据。es支持多种类型的gateway，有本地文件系统（默认），分布式文件系统，Hadoop的HDFS和amazon的s3云存储服务。
discovery.zen：代表es的自动发现节点机制，es是一个基于p2p的系统，它先通过广播寻找存在的节点，再通过多播协议来进行节点之间的通信，同时也支持点对点的交互。
Transport：代表es内部节点或集群与客户端的交互方式，默认内部是使用tcp协议进行交互，同时它支持http协议（json格式）、thrift、servlet、memcached、zeroMQ等的传输协议（通过插件方式集成）。

ES重点算法

倒排索引

例如插入几条数据

_id可自定义，如果没有定义，会自动生成_id。同时，es内置还会生成一个id。
灵魂拷问：_id可以作为id使用吗？

{ _id:"10001", school_name:"佳木斯第一中学“, grade:”一年级“, class:”二班“, student_name:”张三“, } { _id:"10002", school_name:"佳木斯第二中学“, grade:”一年级“, class:”二班“, student_name:”李四“, } { _id:"10003", school_name:"佳木斯第一中学“, grade:”一年级“, class:”三班“, student_name:”王五“, }

{  
_id:"10001",       
school_name:"佳木斯第一中学“,
grade:”一年级“,
class:”二班“,
student_name:”张三“,
}
{  
_id:"10002",       
school_name:"佳木斯第二中学“,
grade:”一年级“,
class:”二班“,
student_name:”李四“,
}
{  
_id:"10003",       
school_name:"佳木斯第一中学“,
grade:”一年级“,
class:”三班“,
student_name:”王五“,
}

那么理想倒排索引为：

school_name { "佳木斯第一中学":[1,3], "佳木斯第二中学":[2] } grade { "一年级":[1,2,3] } class { "二班":[1,2], "三班":[3] } student_name { "张三":[1], "李四":[2], "王五":[3] }

school_name
{              
"佳木斯第一中学":[1,3],
"佳木斯第二中学":[2]
}
grade
{
"一年级":[1,2,3]
}
class
{
"二班":[1,2],
"三班":[3]
}
student_name
{
"张三":[1],
"李四":[2],
"王五":[3]
}

对层级对象如何建立索引？

多层级对象文档

{ "gb": { "tweet": { "properties": { "tweet": { "type": "string" }, "user": { "type": "object", "properties": { "id": { "type": "string" }, "gender": { "type": "string" }, "age": { "type": "long" }, "name": { "type": "object", "properties": { "full": { "type": "string" }, "first": { "type": "string" }, "last": { "type": "string" } } } } } } } } }

{
"gb": {
"tweet": {
"properties": {
"tweet":            { "type": "string" },
"user": {
"type":             "object",
"properties": {
"id":           { "type": "string" },
"gender":       { "type": "string" },
"age":          { "type": "long"   },
"name":   {
"type":         "object",
"properties": {
"full":     { "type": "string" },
"first":    { "type": "string" },
"last":     { "type": "string" }
}
}
}
}
}
}
}
}

映射为：

{ "tweet": [elasticsearch, flexible, very], "user.id": [@johnsmith], "user.gender": [male], "user.age": [26], "user.name.full": [john, smith], "user.name.first": [john], "user.name.last": [smith] }

JSON 格式的文档被处理成如下的扁平式键值对的结构。
数组嵌套文档的风险

{ "title": "Nest eggs", "body": "Making your money work...", "tags": [ "cash", "shares" ], "comments": [ { "name": "John Smith", "comment": "Great article", "age": 28, "stars": 4, "date": "2014-09-01" }, { "name": "Alice White", "comment": "More like this please", "age": 31, "stars": 5, "date": "2014-10-22" } ] }

{
"title": "Nest eggs",
"body":  "Making your money work...",
"tags":  [ "cash", "shares" ],
"comments": [
{
"name":    "John Smith",
"comment": "Great article",
"age":     28,
"stars":   4,
"date":    "2014-09-01"
},
{
"name":    "Alice White",
"comment": "More like this please",
"age":     31,
"stars":   5,
"date":    "2014-10-22"
}
]
}

如下查询会被搜索出：

GET /_search { "query": { "bool": { "must": [ { "match": { "name": "Alice" }}, { "match": { "age": 28 }} ] } } }

解决方案：嵌套对象

字典树

Elasticsearch为了能快速找到某个term，将所有的term排个序，生成Term Index，二分法查找term，logN的查找效率。
字典树介绍
不需要存下所有的term，而仅仅是他们的一些前缀与Term Dictionary的block之间的映射关系，再结合FST(Finite State Transducers)的压缩技术，可以使term index缓存到内存中。从term index查到对应的term dictionary的block位置之后，再去磁盘上找term，大大减少了磁盘随机读的次数。