0
点赞
收藏
分享

微信扫一扫

ES经典面试题:谈谈filter和query有什么区别?


一、实战演示

1、创建索引

PUT my-index-000001
{
"mappings": {
"properties": {
"city": {
"type": "keyword"
}
}
}
}

2、添加测试数据

PUT my-index-000001/_doc/1
{
"city": "北京"
}

PUT my-index-000001/_doc/2
{
"city": "天津"
}

PUT my-index-000001/_doc/3
{
"city": "武汉"
}

3、通过query查询

GET my-index-000001/_search
{
"query": {
"bool": {
"must": [
{"term": {
"city": "北京"
}}
]
}
}
}

执行结果:

ES经典面试题:谈谈filter和query有什么区别?_filter

4、通过filter过滤器查询

GET my-index-000001/_search
{
"query": {
"bool": {
"filter": [
{"term": {
"city": "北京"
}}
]
}
}
}

执行结果:

ES经典面试题:谈谈filter和query有什么区别?_组合_02


结论:

由于数据量有限,查询性能方面看不出区别,只能得到以下结论:

1、filter和query查询都能正确获得预期的结果记录。

2、query查询会对匹配结果进行相关性打分,filter查询不会对结果记录进行打分。

二、filter和query的差别

官网中对query context和filter context的说明:
​​​官网链接​​

ES经典面试题:谈谈filter和query有什么区别?_过滤器_03


filter和query的差别:

1、filter查询会缓存结果,不计算相关度分数,查询效率更高

2、query查询不缓存结果,且会计算相关度分数,查询效率会比filter查询低。

三、filter查询详解

  1. filter并不是每次执行都会进行cache,而是当执行一定次数的时候才会进行cache一个二进制数组,1表示匹配,2表示不匹配。这个次数是不固定的。
  2. filter会从优先过滤掉稀疏的数据中,保留匹配的cache数组。
  3. filter cache保存的是匹配的结果,不需要再从倒排索引中去查找比对,大大提高查询效率。
  4. filter一般会在query之前执行,过滤掉一部分数据,从而提高query速度。
  5. filter不计算相关度分数,在执行效率上较query更高。
  6. 当元数据发生改变时,cache也会更新。
  7. filter中不能使用match全文检索查询。

四、fitler和query的组合使用

在实际查询中,我们可以灵活选用fitler和query查询,并且二者还能组合在一起使用。

GET /_search
{
"query": {
"bool": {
"must": [
{ "match": { "title": "Search" }},
{ "match": { "content": "Elasticsearch" }}
],
"filter": [
{ "term": { "status": "published" }},
{ "range": { "publish_date": { "gte": "2015-01-01" }}}
]
}
}
}

说明:
过滤器filter查询目前也被放在了bool查询的条件中,ES权威指南中提到的​​​filtered​​关键字已经作废了。

​filtered​​过期写法:

## INCORRECT - DEPRECATED SYNTAX, DO NOT USE
GET _search
{
"query": {
"filtered": {
"query": {
"match": {
"text": "quick brown fox"
}
},
"filter": {
"term": {
"status": "published"
}
}
}
}
}

正确写法:
move the query and filter to the must and filter parameters in the bool query:

GET _search
{
"query": {
"bool": {
"must": {
"match": {
"text": "quick brown fox"
}
},
"filter": {
"term": {
"status": "published"
}
}
}
}
}

五、最佳实践

除了需要计算相关性打分的检索条件,其他的检索条件尽量采用filter过滤器查询,以提升查询性能。


举报

相关推荐

0 条评论