Elasticsearch-ES查询单字段去重

打印 上一主题 下一主题

主题 546|帖子 546|积分 1638

ES 语句

整体数据
  1. GET wkl_test/_search
  2. {
  3.   "query": {
  4.     "match_all": {}
  5.   }
  6. }
复制代码
结果:
  1. {
  2.   "took" : 123,
  3.   "timed_out" : false,
  4.   "_shards" : {
  5.     "total" : 1,
  6.     "successful" : 1,
  7.     "skipped" : 0,
  8.     "failed" : 0
  9.   },
  10.   "hits" : {
  11.     "total" : {
  12.       "value" : 5,
  13.       "relation" : "eq"
  14.     },
  15.     "max_score" : 1.0,
  16.     "hits" : [
  17.       {
  18.         "_index" : "wkl_test",
  19.         "_type" : "_doc",
  20.         "_id" : "aK0tFpABTkLj5j4c34pE",
  21.         "_score" : 1.0,
  22.         "_source" : {
  23.           "name" : "zhangsan",
  24.           "aa" : 1
  25.         }
  26.       },
  27.       {
  28.         "_index" : "wkl_test",
  29.         "_type" : "_doc",
  30.         "_id" : "aa0uFpABTkLj5j4cFYrJ",
  31.         "_score" : 1.0,
  32.         "_source" : {
  33.           "name" : "lisi",
  34.           "aa" : 2
  35.         }
  36.       },
  37.       {
  38.         "_index" : "wkl_test",
  39.         "_type" : "_doc",
  40.         "_id" : "aq0uFpABTkLj5j4cKYqF",
  41.         "_score" : 1.0,
  42.         "_source" : {
  43.           "name" : "wangwu",
  44.           "aa" : 2
  45.         }
  46.       },
  47.       {
  48.         "_index" : "wkl_test",
  49.         "_type" : "_doc",
  50.         "_id" : "a60uFpABTkLj5j4c2IoF",
  51.         "_score" : 1.0,
  52.         "_source" : {
  53.           "name" : "maliu",
  54.           "aa" : 2
  55.         }
  56.       },
  57.       {
  58.         "_index" : "wkl_test",
  59.         "_type" : "_doc",
  60.         "_id" : "bK1IFpABTkLj5j4cqYop",
  61.         "_score" : 1.0,
  62.         "_source" : {
  63.           "name" : "gouqi",
  64.           "aa" : 3
  65.         }
  66.       }
  67.     ]
  68.   }
  69. }
复制代码
1:collapse折叠功能- 查询去重后的数据列表(ES5.3之后支持)



  • 保举原因:性能高,占内存小
  • 注意:使用此方式去重时,不会去撤消不存在去重字段的数据。
  • 去重字段只能是数字long范例或keyword。
  • Field Collapsing(字段折叠)不能与scroll、rescore以及search after 联合使用。
  1. GET wkl_test/_search
  2. {
  3.   "query": {
  4.     "match_all": {}
  5.   },
  6.   "collapse": {
  7.     "field": "aa"
  8.   }
  9. }
复制代码
结果:hits 中total虽然=5,但是只返回了去重后的 3 条数据
  1. {
  2.   "took" : 2,
  3.   "timed_out" : false,
  4.   "_shards" : {
  5.     "total" : 1,
  6.     "successful" : 1,
  7.     "skipped" : 0,
  8.     "failed" : 0
  9.   },
  10.   "hits" : {
  11.     "total" : {
  12.       "value" : 5,
  13.       "relation" : "eq"
  14.     },
  15.     "max_score" : null,
  16.     "hits" : [
  17.       {
  18.         "_index" : "wkl_test",
  19.         "_type" : "_doc",
  20.         "_id" : "aK0tFpABTkLj5j4c34pE",
  21.         "_score" : 1.0,
  22.         "_source" : {
  23.           "name" : "zhangsan",
  24.           "aa" : 1
  25.         },
  26.         "fields" : {
  27.           "aa" : [
  28.             1
  29.           ]
  30.         }
  31.       },
  32.       {
  33.         "_index" : "wkl_test",
  34.         "_type" : "_doc",
  35.         "_id" : "aa0uFpABTkLj5j4cFYrJ",
  36.         "_score" : 1.0,
  37.         "_source" : {
  38.           "name" : "lisi",
  39.           "aa" : 2
  40.         },
  41.         "fields" : {
  42.           "aa" : [
  43.             2
  44.           ]
  45.         }
  46.       },
  47.       {
  48.         "_index" : "wkl_test",
  49.         "_type" : "_doc",
  50.         "_id" : "bK1IFpABTkLj5j4cqYop",
  51.         "_score" : 1.0,
  52.         "_source" : {
  53.           "name" : "gouqi",
  54.           "aa" : 3
  55.         },
  56.         "fields" : {
  57.           "aa" : [
  58.             3
  59.           ]
  60.         }
  61.       }
  62.     ]
  63.   }
  64. }
复制代码
2:cardinality - 查询去重后的数据总数



  • 聚合+cardinality:即去重计算,类似sql中 count(distinct),先去重再求和
  • 注意:使用此方式统计去重后的数量时,会去撤消不存在去重字段的数据。
  1. GET wkl_test/_search
  2. {
  3.   "query": {
  4.     "match_all": {}
  5.   },
  6.   "size": 0,
  7.   "aggs": {
  8.     "distinct_count": {
  9.       "cardinality": {
  10.         "field": "aa"
  11.       }
  12.     }
  13.   }
  14. }
复制代码
结果:distinct_count = 3,说明去重后有3个,既aggregations聚合下,返回了按名字查询去重后的结果数,但是只有去重后的条数,没有具体的数据。
  1. {
  2.   "took" : 2,
  3.   "timed_out" : false,
  4.   "_shards" : {
  5.     "total" : 1,
  6.     "successful" : 1,
  7.     "skipped" : 0,
  8.     "failed" : 0
  9.   },
  10.   "hits" : {
  11.     "total" : {
  12.       "value" : 5,
  13.       "relation" : "eq"
  14.     },
  15.     "max_score" : null,
  16.     "hits" : [ ]
  17.   },
  18.   "aggregations" : {
  19.     "distinct_count" : {
  20.       "value" : 3
  21.     }
  22.   }
  23. }
复制代码
3:整体语句



  • 使用collapse 折叠查询后,虽然返回了去重后的数据,但是total 照旧全部的数据量
  • 使用 cardinality 聚合 ,虽然在aggs 聚合结果中返回了正确的数据量,但是hits中照旧全部的数据
  • 所以我们必要 两个综合使用,如下:
  1. GET wkl_test/_search
  2. {
  3.   "query": {
  4.     "match_all": {}
  5.   },
  6.   "collapse": {
  7.     "field": "aa"
  8.   },
  9.   "aggs": {
  10.     "distinct_count": {
  11.       "cardinality": {
  12.         "field": "aa"
  13.       }
  14.     }
  15.   }
  16. }
复制代码
结果:
  1. {
  2.   "took" : 3,
  3.   "timed_out" : false,
  4.   "_shards" : {
  5.     "total" : 1,
  6.     "successful" : 1,
  7.     "skipped" : 0,
  8.     "failed" : 0
  9.   },
  10.   "hits" : {
  11.     "total" : {
  12.       "value" : 5,
  13.       "relation" : "eq"
  14.     },
  15.     "max_score" : null,
  16.     "hits" : [
  17.       {
  18.         "_index" : "wkl_test",
  19.         "_type" : "_doc",
  20.         "_id" : "aK0tFpABTkLj5j4c34pE",
  21.         "_score" : 1.0,
  22.         "_source" : {
  23.           "name" : "zhangsan",
  24.           "aa" : 1
  25.         },
  26.         "fields" : {
  27.           "aa" : [
  28.             1
  29.           ]
  30.         }
  31.       },
  32.       {
  33.         "_index" : "wkl_test",
  34.         "_type" : "_doc",
  35.         "_id" : "aa0uFpABTkLj5j4cFYrJ",
  36.         "_score" : 1.0,
  37.         "_source" : {
  38.           "name" : "lisi",
  39.           "aa" : 2
  40.         },
  41.         "fields" : {
  42.           "aa" : [
  43.             2
  44.           ]
  45.         }
  46.       },
  47.       {
  48.         "_index" : "wkl_test",
  49.         "_type" : "_doc",
  50.         "_id" : "bK1IFpABTkLj5j4cqYop",
  51.         "_score" : 1.0,
  52.         "_source" : {
  53.           "name" : "gouqi",
  54.           "aa" : 3
  55.         },
  56.         "fields" : {
  57.           "aa" : [
  58.             3
  59.           ]
  60.         }
  61.       }
  62.     ]
  63.   },
  64.   "aggregations" : {
  65.     "distinct_count" : {
  66.       "value" : 3
  67.     }
  68.   }
  69. }
复制代码
注:我们使用cardinality聚合后的distinct_count 作为去重后的总数,用 collapse 折叠后的列表作为数据结果集
分页使用解释说明:


  • 1.hits中total的总条数现实上是去重前的总条数,原数据条数,这里我们知道就行,分页中我们并不使用它。hits中数组的大小刚好等于courseAgg聚合的值,数组中的数据就是去重后的数据。
  • 2.aggregations中的courseAgg条数,这个才是去重后的现实条数,也是分页用的总条数。
  • 3.from 查询的偏移量,也就是从哪里开始查。
  • 4.size 查询条数,一次查几条。
  • 接下来,你就可以把它当做一个简单分页查询来用了,传入from和size就ok啦~
JAVA API使用

1:collapse 查询去重的结果集

  1. // 使用collapse来指定去重的字段,例如"your_distinct_field"
  2.             CollapseBuilder collapseBuilder = new CollapseBuilder("your_distinct_field");
  3.             searchSourceBuilder.collapse(collapseBuilder);
复制代码
2:cardinality - 查询去重后的数据总数

  1.                 // 添加一个cardinality聚合来计算去重字段的唯一值数量
  2.          CardinalityAggregationBuilder aggregation = AggregationBuilders
  3.                  .cardinality("distinct_count")//这里是聚合结果的字段名
  4.                  .field("your_distinct_field")//这里是需要聚合的字段
  5.                  .precisionThreshold(40000); // 根据需要调整精度阈值
  6.          searchSourceBuilder.aggregation(aggregation);
复制代码
3:整体使用

  1. package com.wenge.system.utils;import org.apache.http.HttpHost;import org.elasticsearch.action.search.SearchRequest;import org.elasticsearch.action.search.SearchResponse;import org.elasticsearch.client.RequestOptions;import org.elasticsearch.client.RestClient;import org.elasticsearch.client.RestHighLevelClient;import org.elasticsearch.index.query.QueryBuilders;import org.elasticsearch.search.SearchHit;import org.elasticsearch.search.SearchHits;import org.elasticsearch.search.aggregations.AggregationBuilders;import org.elasticsearch.search.aggregations.metrics.CardinalityAggregationBuilder;import org.elasticsearch.search.aggregations.metrics.ParsedCardinality;import org.elasticsearch.search.builder.SearchSourceBuilder;import org.elasticsearch.search.collapse.CollapseBuilder;import java.io.IOException;import java.util.Map;/** * @author wangkanglu * @version 1.0 * @description * @date 2024-06-17 16:48 */public class TestES {    public static void main(String[] args) throws IOException {        //创建ES客户端        RestHighLevelClient esClient = new RestHighLevelClient(                RestClient.builder(new HttpHost("localhost",9200,"http"))        );        try {            // 创建一个搜索请求并设置索引名            SearchRequest searchRequest = new SearchRequest("your_index");            // 构建搜索源构建器            SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();            // 设置查询条件,例如匹配全部文档,这里根据业务本身修改            searchSourceBuilder.query(QueryBuilders.matchAllQuery());            // 使用collapse来指定去重的字段,例如"your_distinct_field"
  2.             CollapseBuilder collapseBuilder = new CollapseBuilder("your_distinct_field");
  3.             searchSourceBuilder.collapse(collapseBuilder);
  4.             // 添加一个cardinality聚合来计算去重字段的唯一值数量            CardinalityAggregationBuilder aggregation = AggregationBuilders                    .cardinality("distinct_count")//这里是聚合结果的字段名                    .field("your_distinct_field")//这里是必要聚合的字段                    .precisionThreshold(40000); // 根据必要调解精度阈值            searchSourceBuilder.aggregation(aggregation);            // 设置搜索源            searchRequest.source(searchSourceBuilder);            // 执行搜索            SearchResponse searchResponse = esClient.search(searchRequest, RequestOptions.DEFAULT);            SearchHit[] hits = searchResponse.getHits().getHits();            for (SearchHit hit : hits) {                Map<String, Object> sourceAsMap = hit.getSourceAsMap();                System.out.println("去重结果: " + sourceAsMap);            }            // 处置惩罚搜索结果,获取去重数量            ParsedCardinality parsedCardinality = searchResponse.getAggregations().get("distinct_count");            long distinctCount = parsedCardinality.getValue();            System.out.println("去重结果数量:" + distinctCount);        } finally {            // 关闭client            esClient.close();        }    }}
复制代码
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

络腮胡菲菲

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表