elasticSearch的使用——收藏起来当个词典，忘记了回来查一查-CFANZ编程社区

文章目录

注意！本文适合对elasticSearch略微熟悉的读者，介绍es的使用
注意！ES7去掉了Type类型的概念！
一、初步检索

1、_cat

GET /_cat/nodes：查看所有节点
GET /_cat/health：查看 es 健康状况
GET /_cat/master：查看主节点
GET /_cat/indices：查看所有索引

2、索引一个文档（保存）
3、查询文档
4、更新文档

普通更新
乐观锁更新

5、删除文档&索引
6、bulk 批量 API
7、样本测试数据

二、进阶检索

1、SearchAPI

1）、检索信息

2、Query DSL

1）、基本语法格式
2）、返回部分字段
3）、match【匹配查询】
4）、match_phrase【短语匹配】
5）、keyword【精确匹配】
6）、multi_match【多字段匹配】
7）、bool【复合查询】

must
should
must_not
filter【结果过滤】
总结

8）、term
9）、aggregations（执行聚合）

3、Mapping

1）、字段类型
2）、映射
3）、创建映射
4）、添加新的字段映射
5）、更新映射
6）、数据迁移

注意！本文适合对elasticSearch略微熟悉的读者，介绍es的使用

学习es请移步：
elasticSearch入门到java操作api一套搞定

注意！ES7去掉了Type类型的概念！

本文以下的所有操作中的type，可根据ES版本选择是否保留！

Es7 及以上移除了 type 的概念。

关系型数据库中两个数据表示是独立的，即使他们里面有相同名称的列也不影响使用，但 ES 中不是这样的。elasticsearch 是基于 Lucene 开发的搜索引擎，而 ES 中不同 type 下名称相同的 filed 最终在 Lucene 中的处理方式是一样的。

两个不同 type 下的两个 user_name，在 ES 同一个索引下其实被认为是同一个 filed，你必须在两个不同的 type 中定义相同的 filed 映射。否则，不同 type 中的相同字段名称就会在处理中出现冲突的情况，导致 Lucene 处理效率下降。

去掉 type 就是为了提高 ES 处理数据的效率。

Elasticsearch 7.x：URL 中的 type 参数为可选。比如，索引一个文档不再要求提供文档类型。

Elasticsearch 8.x：不再支持 URL 中的 type 参数。

一、初步检索

1、_cat

GET /_cat/nodes：查看所有节点

响应结果

127.0.0.1 20 91 6 0.31 0.13 0.08 dilm * f7e4f6f8fe76

GET /_cat/health：查看 es 健康状况

响应结果

1656208699 01:58:19 elasticsearch yellow 1 1 6 6 0 0 3 0 - 66.7%

GET /_cat/master：查看主节点

响应结果

zLiQgkDqS7iCtkffKsVyng 127.0.0.1 127.0.0.1 f7e4f6f8fe76

GET /_cat/indices：查看所有索引

相当于mysql 的show databases;

green  open .kibana_task_manager_1   KpFb1No-TSyVJKCJyjWyiw 1 0    2 0  30.4kb  30.4kb
green  open .apm-agent-configuration ArE0lLq2SguRpxCWlsTyDA 1 0    0 0    283b    283b
green  open .kibana_1                vNeZ0EEoQU6xf86STH584g 1 0    6 0  25.1kb  25.1kb

2、索引一个文档（保存）

保存一个数据，保存在哪个索引的哪个类型下，指定用哪个唯一标识
PUT customer/external/1；在 customer 索引下的 external 类型下保存 1 号数据为

// 请求
PUT customer/external/1
{
  "name": "John Doe"
}

// 响应
{
  "_index" : "customer",  //在哪个索引
  "_type" : "external",   //在哪个类型
  "_id" : "1",        //记录 id
  "_version" : 1,      //版本号
  "result" : "created",   // 结果
  "_shards" : {       // 集群有关
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 0,      //并发控制字段，每次更新就会+1，用来做乐观锁
  "_primary_term" : 1   //同上，主分片重新分配，如重启，就会变化
}

PUT 和 POST 都可以，
POST 新增。如果不指定 id，会自动生成 id。指定 id 就会修改这个数据，并新增版本号
PUT 可以新增可以修改。PUT 必须指定 id；由于 PUT 需要指定 id，我们一般都用来做修改操作，不指定 id 会报错。

注意：post没有幂等性，put有幂等性。

3、查询文档

// 请求
GET customer/external/1

// 响应
{
  "_index": "customer", //在哪个索引 
  "_type": "external", //在哪个类型 
  "_id": "1", //记录 id 
  "_version": 2, //版本号 
  "_seq_no": 1, //并发控制字段，每次更新就会+1，用来做乐观锁 
  "_primary_term": 1, //同上，主分片重新分配，如重启，就会变化 
  "found": true, 
  "_source": { //真正的内容 
    "name": "John Doe" 
  } 
}

注意：查询带_seq_no和_primary_term，更新时可以带?if_seq_no=0&if_primary_term=1可以做到乐观锁。

4、更新文档

普通更新

// 请求
POST customer/external/1/_update
{
  "doc": {
    "name": "John Doew"
  }
}

// 或者
POST customer/external/1
{
  "name": "John Doe2"
}

// 或者
PUT customer/external/1
{
  "name": "John Doe"
}

// 更新携带属性时，直接携带即可，三种方式更新都能用

不同：
post带_update会检索文档对比源文档数据，如果相同不会有什么操作，文档 version 不增加；
POST 不带_update的操作、 PUT 操作总会将数据重新保存并增加 version 版本。

使用场景：
对于大并发更新，不带 _update；
对于大并发查询偶尔更新，带 _update；对比更新，重新计算分配规则。

乐观锁更新

// 请求
PUT customer/external/1?if_seq_no=4&if_primary_term=1
{
  "name": "John Doe"
}

更新时携带版本号，如果是该版本号的就更新，不是该版本号的会提示错误（三种更新方式都可以用）。

// 更新失败
{
  "error": {
    "root_cause": [
      {
        "type": "version_conflict_engine_exception",
        "reason": "[1]: version conflict, required seqNo [4], primary term [1]. current document has seqNo [5] and primary term [1]",
        "index_uuid": "jKoU82SvSgimvAkgFq6CTg",
        "shard": "0",
        "index": "customer"
      }
    ],
    "type": "version_conflict_engine_exception",
    "reason": "[1]: version conflict, required seqNo [4], primary term [1]. current document has seqNo [5] and primary term [1]",
    "index_uuid": "jKoU82SvSgimvAkgFq6CTg",
    "shard": "0",
    "index": "customer"
  },
  "status": 409
}

5、删除文档&索引

// 删除指定id的文档
DELETE customer/external/1
// 响应
{
  "_index" : "customer",
  "_type" : "external",
  "_id" : "1",
  "_version" : 7,
  "result" : "deleted",
  "_shards" : {
    "total" : 2,
    "successful" : 1,
    "failed" : 0
  },
  "_seq_no" : 6,
  "_primary_term" : 1
}

// 删除整个索引
DELETE customer
// 响应
{
  "acknowledged" : true
}

注意：只能删除index、文档，不能删除type。

6、bulk 批量 API

// 请求实例
POST customer/external/_bulk
{"index":{"_id":"1"}} 
{"name": "John Doe" } 
{"index":{"_id":"2"}} 
{"name": "Jane Doe" }

// 语法格式
{ action: { metadata }}\n 
{ request body }\n 
{ action: { metadata }}\n 
{ request body }\n

// 复杂实例：
POST /_bulk
{ "delete": { "_index": "website", "_type": "blog", "_id": "123" }} 
{ "create": { "_index": "website", "_type": "blog", "_id": "123" }}
{ "title": "My first blog post" } 
{ "index": { "_index": "website", "_type": "blog" }} 
{ "title": "My second blog post" } 
{ "update": { "_index": "website", "_type": "blog", "_id": "123"} } 
{ "doc" : {"title" : "My updated blog post"} }

bulk API 以此按顺序执行所有的 action（动作）。如果一个单个的动作因任何原因而失败，它将继续处理它后面剩余的动作。当 bulk API 返回时，它将提供每个动作的状态（与发送的顺序相同），所以您可以检查是否一个指定的动作是不是失败了。

7、样本测试数据

我准备了一份顾客银行账户信息的虚构的 JSON 文档样本。每个文档都有下列的 schema （模式）:

{
  "account_number": 0,
  "balance": 16623,
  "firstname": "Bradshaw",
  "lastname": "Mckenzie",
  "age": 29,
  "gender": "F",
  "address": "244 Columbus Place",
  "employer": "Euron",
  "email": "bradshawmckenzie@euron.com",
  "city": "Hobucken",
  "state": "CO"
}

POST bank/account/_bulk
导入测试数据
注意：测试数据有需要的话（总共1000条测试数据），可以私信我或者加我微X，我发你。

二、进阶检索

1、SearchAPI

ES 支持两种基本方式检索 :
 一个是通过使用 REST request URI 发送搜索参数（uri+检索参数）
 另一个是通过使用 REST request body 来发送它们（uri+请求体）

1）、检索信息

一切检索从_search 开始

// 检索 bank 下所有信息，包括 type 和 docs
GET bank/_search

// 请求参数方式检索
GET bank/_search?q=*&sort=account_number:asc

响应结果解释：
took - Elasticsearch 执行搜索的时间（毫秒）
time_out - 告诉我们搜索是否超时
_shards - 告诉我们多少个分片被搜索了，以及统计了成功/失败的搜索分片
hits - 搜索结果
hits.total - 搜索结果
hits.hits - 实际的搜索结果数组（默认为前 10 的文档）
sort - 结果的排序 key（键）（没有则按 score 排序）
score 和 max_score –相关性得分和最高得分（全文检索用）

// uri+请求体进行检索
GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [{
    "account_number": {
      "order": "desc"
    }
  }]
}

HTTP 客户端工具（POSTMAN），get 请求不能携带请求体，我们变为 post 也是一样的我们 POST 一个 JSON 风格的查询请求体到 _search API。需要了解，一旦搜索的结果被返回，Elasticsearch 就完成了这次请求，并且不会维护任何服务端的资源或者结果的 cursor（游标）

2、Query DSL

1）、基本语法格式

Elasticsearch 提供了一个可以执行查询的 Json 风格的 DSL（domain-specific language 领域特定语言）。这个被称为 Query DSL。该查询语言非常全面，并且刚开始的时候感觉有点复杂，真正学好它的方法是从一些基础的示例开始的。

// 一个查询语句 的典型结构：
{
  QUERY_NAME: {
    ARGUMENT: VALUE,
    ARGUMENT: VALUE,
    ...
  }
}

// 如果是针对某个字段，那么它的结构如下：
{
  QUERY_NAME: {
    FIELD_NAME: {
      ARGUMENT: VALUE,
      ARGUMENT: VALUE,
      ...
    }
  }
}

// 实例
GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "from": 0,
  "size": 5,
  "sort": [{
    "account_number": {
      "order": "desc"
    }
  }]
}

 query 定义如何查询，
 match_all 查询类型【代表查询所有的所有】，es 中可以在 query 中组合非常多的查询类型完成复杂查询
 除了 query 参数之外，我们也可以传递其它的参数以改变查询结果。如 sort，size
 from+size 限定，完成分页功能
 sort 排序，多字段排序，会在前序字段相等时后续字段内部排序，否则以前序为准

2）、返回部分字段

GET bank/_search
{
  "query": {
    "match_all": {}
  },
  "from": 0,
  "size": 5,
  "_source": ["age", "balance"]
}

_source中表示要显示的字段数组。

3）、match【匹配查询】

使用match搜索字符串，会对全文检索并按照评分进行排序，并且同时也会对检索条件进行分词匹配。
使用match匹配其他类型，不会对全文进行索引，是精确匹配。

// 基本类型（非字符串），精确匹配
GET bank/_search
{
  "query": {
    "match": {
      "account_number": "20"
    }
  }
}
// 因为account_number字段为数字类型，所以match 只返回 account_number=20 的，不会进行全文检索

// 字符串，会进行全文检索
GET bank/_search
{
  "query": {
    "match": {
      "address": "mill"
    }
  }
}
// 最终查询出 address 中包含 mill 单词的所有记录 
// match 当搜索字符串类型的时候，会进行全文检索，并且每条记录有相关性得分。

// 字符串，多个单词（分词+全文检索）
GET bank/_search
{
  "query": {
    "match": {
      "address": "mill road"
    }
  }
}
// 最终查询出 address 中包含 mill 或者 road 或者 mill road 的所有记录，并给出相关性得分

4）、match_phrase【短语匹配】

// 将需要匹配的值当成一个整体单词（不分词）进行检索
GET bank/_search
{
  "query": {
    "match_phrase": {
      "address": "mill road"
    }
  }
}
// 查出 address 中包含 mill road 的所有记录，并给出相关性得分（mill road会作为一个完整的词进行查询，而不会分词，但是会对全文进行检索，检索所有包含mill road的）

5）、keyword【精确匹配】

keyword和match_phrase区别：
keyword：精确匹配，该字段只包含这个字符串的。
match_phrase：将查询条件作为整个词，进行全文检索。

// keyword：精确匹配
GET bank/_search
{
  "query": {
    "match": {
      "address.keyword": "mill road"
    }
  }
}

6）、multi_match【多字段匹配】

使用multi_match【多字段匹配】也会将查询条件进行分词，然后进行匹配。

GET bank/_search
{
  "query": {
    "multi_match": {
      "query": "mill",
      "fields": ["state", "address"]
    }
  }
}
// state 或者 address 包含 mill

7）、bool【复合查询】

bool 用来做复合查询：
复合语句可以合并任何其它查询语句，包括复合语句，了解这一点是很重要的。这就意味着，复合语句之间可以互相嵌套，可以表达非常复杂的逻辑。

must

// must：必须达到 must 列举的所有条件
GET bank/_search
{
  "query": {
    "bool": {
      "must": [{
        "match": {
          "address": "mill"
        }
      }, {
        "match": {
          "gender": "M"
        }
      }]
    }
  }
}

should

// should：应该达到 should 列举的条件，如果达到会增加相关文档的评分
// 并不会改变 查询的结果。如果 query 中只有 should 且只有一种匹配规则，那么 should 的条件就会 被作为默认匹配条件而去改变查询结果
GET bank/_search
{
  "query": {
    "bool": {
      "must": [{
        "match": {
          "address": "mill"
        }
      }, {
        "match": {
          "gender": "M"
        }
      }],
      "should": [{
        "match": {
          "address": "lane"
        }
      }]
    }
  }
}

must_not

// must_not 必须不是指定的情况
GET bank/_search
{
  "query": {
    "bool": {
      "must": [{
        "match": {
          "address": "mill"
        }
      }, {
        "match": {
          "gender": "M"
        }
      }],
      "should": [{
        "match": {
          "address": "lane"
        }
      }],
      "must_not": [{
        "match": {
          "email": "baluba.com"
        }
      }]
    }
  }
}
// address 包含 mill，并且 gender 是 M，如果 address 里面有 lane 最好不过，但是 email 必 须不包含 baluba.com

filter【结果过滤】

并不是所有的查询都需要产生分数，特别是那些仅用于 “filtering”（过滤）的文档。为了不计算分数 Elasticsearch 会自动检查场景并且优化查询的执行。

GET bank/_search
{
  "query": {
    "bool": {
      "must": [{
        "match": {
          "address": "mill"
        }
      }],
      "filter": {
        "range": {
          "balance": {
            "gte": 10000,
            "lte": 20000
          }
        }
      }
    }
  }
}

总结

must：子句（查询）必须出现在匹配的文档中，并将有助于得分。

filter：子句（查询）必须出现在匹配的文档中，然而不像must此查询的分数将被忽略。

should：子句（查询）应出现在匹配文档中。在布尔查询中不包含must或filter子句，一个或多个should子句必须有相匹配的文件。匹配should条件的最小数目可通过设置minimum_should_match参数。

must_not：子句（查询）不能出现在匹配的文档中。

8）、term

和 match 一样。匹配某个属性的值。全文检索字段用 match，其他非 text 字段匹配用 term。
elasticSearch的使用——收藏起来当个词典，忘记了回来查一查_elasticsearch

GET bank/_search
{
  "query": {
    "bool": {
      "must": [{
        "term": {
          "age": {
            "value": "28"
          }
        }
      }, {
        "match": {
          "address": "990 Mill Road"
        }
      }]
    }
  }
}

9）、aggregations（执行聚合）

聚合提供了从数据中分组和提取数据的能力。最简单的聚合方法大致等于 SQL GROUP BY 和 SQL 聚合函数。在 Elasticsearch 中，您有执行搜索返回 hits（命中结果），并且同时返回聚合结果，把一个响应中的所有 hits（命中结果）分隔开的能力。这是非常强大且有效的，您可以执行查询和多个聚合，并且在一次使用中得到各自的（任何一个的）返回结果，使用一次简洁和简化的 API 来避免网络往返。

terms：聚合所有情况
avg：平均值
对text类型的字段，聚合时必须使用keyword精确匹配。

// 搜索 address 中包含 mill 的所有人的年龄分布以及平均年龄，但不显示这些人的详情。
GET bank/_search
{
  "query": {
    "match": {
      "address": "mill"
    }
  },
  "aggs": {
    "group_by_state": {
      "terms": {
        "field": "age"
      }
    },
    "avg_age": {
      "avg": {
        "field": "age"
      }
    }
  },
  "size": 0
}

解释以上：
size：0 不显示搜索数据 
aggs：执行聚合。聚合语法如下
"aggs": {
  "aggs_name 这次聚合的名字，方便展示在结果集中": {
    "AGG_TYPE 聚合的类型（avg,term,terms）": {}
  }
},

// 按照年龄聚合，并且请求这些年龄段的这些人的平均薪资
GET bank/account/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "age_avg": {
      "terms": {
        "field": "age",
        "size": 1000
      },
      "aggs": {
        "banlances_avg": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  },
  "size": 1000
}

// 查出所有年龄分布，并且这些年龄段中 M 的平均薪资和 F 的平均薪资以及这个年龄 段的总体平均薪资
GET bank/account/_search
{
  "query": {
    "match_all": {}
  },
  "aggs": {
    "age_agg": {
      "terms": {
        "field": "age",
        "size": 100
      },
      "aggs": {
        "gender_agg": {
          "terms": {
            "field": "gender.keyword",
            "size": 100
          },
          "aggs": {
            "balance_avg": {
              "avg": {
                "field": "balance"
              }
            }
          }
        },
        "balance_avg": {
          "avg": {
            "field": "balance"
          }
        }
      }
    }
  },
  "size": 1000
}

3、Mapping

1）、字段类型

核心类型：

字符串（string）
text，keyword
数字类型（Numeric）
long，integer，short，byte，double，float，half_float，scaled_float
日期类型（Date）
data
布尔类型（Boolean）
boolean
二进制类型（binary）
binary

复合类型：

数组类型（Array）
Array支持不针对特定的类型
对象类型（Object）
Object用于单JSON对象
嵌套类型（Nested）
nested用于JSON对象数组

地理类型（Geo）：

地理坐标（Geo-points）
geo_point用于描述经纬度坐标
地理图形（Geo-Shape）
geo_shape用于描述复杂形状，如多边形

特定类型：

IP类型
ip用于描述ipv4和ipv6
补全类型（Completion）
completion提供自动完成提示
令牌计数类型（Token count）
token_count用于统计字符串中的词条数量
附件类型（attachment）
参考mapper-attachements插件，支持将附件如Microsoft Office格式，Open Document格式，ePub，HTML等等索引为attachment数据类型
抽取类型（Percolator）
接受特定领域查询语言（query-dsl）的查询

多字段：
通常用于为不同目的用不同的方法索引同一个字段。例如，string字段可以映射为一个text字段用于全文检索，同样可以映射为一个keyword字段用于排序和聚合。另外，你可以使用standard analyzer，english analyzer，french analyzer来索引一个text字段。
这就是muti-fields的目的。大多数的数据类型通过fields参数来支持muti-fields。

2）、映射

Mapping（映射）
Mapping 是用来定义一个文档（document），以及它所包含的属性（field）是如何存储和索引的。
比如，使用 mapping 来定义：

 哪些字符串属性应该被看做全文本属性（full text fields）。
 哪些属性包含数字，日期或者地理位置。
 文档中的所有属性是否都能被索引（_all 配置）。
 日期的格式。
 自定义映射规则来执行动态添加属性。

// 查看 mapping 信息（列出该索引所有字段的类型）：
GET bank/_mapping

// 修改 mapping 信息
https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping.html

mapping其实不需要手动定义，在插入数据时会自动猜测映射类型：
布尔型：trye或者false ： boolean
整数：123 ： long
浮点数：123.45 ： double
字符串，有效日期：2022-06026 ： date
字符串：learn elasticSearch ： string

3）、创建映射

// 创建索引并指定映射
PUT /my-index
{
  "mappings": {
    "properties": {
      "age": {
        "type": "integer"
      },
      "email": {
        "type": "keyword"
      },
      "name": {
        "type": "text"
      }
    }
  }
}

4）、添加新的字段映射

// 解释：index：false，默认所有的字段的index都是true，为false是不会被索引的不会被查出来，也就是相当于一个冗余字段。
PUT /my-index/_mapping
{
  "properties": {
    "employee-id": {
      "type": "keyword",
      "index": false
    }
  }
}

5）、更新映射

对于已经存在的映射字段，我们不能更新。更新必须创建新的索引进行数据迁移。

6）、数据迁移

先创建出 new_twitter 的正确映射。然后使用如下方式进行数据迁移

POST _reindex // [固定写法]
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

// 将旧索引的 type 下的数据进行迁移（低版本支持type，高版本渐渐废弃了type）
POST _reindex
{
  "source": {
    "index": "twitter",
    "type": "tweet"
  },
  "dest": {
    "index": "tweets"
  }
}