【GreatSQL优化器-13】直方图

打印 上一主题 下一主题

主题 1014|帖子 1014|积分 3042

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
【GreatSQL优化器-13】直方图

一、直方图先容

GreatSQL的优化器负责将SQL查询转换为尽可能高效的执行计划,但由于数据环境不停变革有可能导致优化器对查询数据了解不够充足,可能无法生成最优的执行计划进而影响查询效率,因此推出了直方图(histogram)功能来办理该问题。
直方图用于统计字段值的分布情况,向优化器提供统计信息。利用直方图,可以对一张表的一列数据做分布统计,估算WHERE条件中过滤字段的选择率,从而帮助优化器更准确地估计查询过程中的行数,选择更高效的查询计划。
直方图以灵活的JSON的格式存储。ANALYZE TABLE会基于表巨细主动判断是否要进行取样操纵。
ANALYZE TABLE也会基于表中列的数据分布情况以及bucket的数量来决定是否要建立等宽直方图(singleton)照旧等高直方图(equi-height)。
下面用一个简单的例子来说明直方图是什么。
  1. greatsql> CREATE TABLE t1 (c1 INT PRIMARY KEY, c2 INT,date1 DATETIME);
  2. greatsql> INSERT INTO t1 VALUES (1,10,'2021-03-25 16:44:00.123456'),(2,1,'2022-03-26 16:44:00.123456'),(3,4,'2023-03-27 16:44:00.123456'),(5,5,'2024-03-25 16:44:00.123456'),(7,null,'2020-03-25 16:44:00.123456'),(8,10,'2020-10-25 16:44:00.123456'),(11,16,'2023-03-25 16:44:00.123456');
  3. greatsql> CREATE TABLE t2 (cc1 INT PRIMARY KEY, cc2 INT);
  4. greatsql> INSERT INTO t2 VALUES (1,3),(2,1),(3,2),(4,3),(5,15);
  5. greatsql> CREATE TABLE t3 (ccc1 INT, ccc2 varchar(100));
  6. greatsql> INSERT INTO t3 VALUES (1,'aa1'),(2,'bb1'),(3,'cc1'),(4,'dd1'),(null,'ee');
  7. greatsql> CREATE INDEX idx1 ON t1(c2);
  8. greatsql> CREATE INDEX idx2 ON t1(c2,date1);
  9. greatsql> CREATE INDEX idx2_1 ON t2(cc2);
  10. greatsql> CREATE INDEX idx3_1 ON t3(ccc1);
  11. 系统自动创建buckets:
  12. greatsql> ANALYZE TABLE t1 UPDATE HISTOGRAM ON c2,date1 WITH 3 BUCKETS;
  13. greatsql> SELECT json_pretty(histogram)result from information_schema.column_statistics where table_name = 't1';
  14. | {
  15.   "buckets": [
  16.     [
  17.       1, 最小值
  18.       5, 最大值
  19.       0.42857142857142855, 频率
  20.       3 key个数
  21.     ],
  22.     [
  23.       10,
  24.       10,
  25.       0.7142857142857143,
  26.       1
  27.     ],
  28.     [
  29.       16,
  30.       16,
  31.       0.8571428571428571,
  32.       1
  33.     ]
  34.   ],
  35.   "data-type": "int",
  36.   "null-values": 0.14285714285714285,
  37.   "collation-id": 8,
  38.   "last-updated": "2024-10-22 08:38:48.858099",
  39.   "sampling-rate": 1.0,
  40.   "histogram-type": "equi-height",
  41.   "number-of-buckets-specified": 3
  42. }                                                                                                                                     |
  43. | {
  44.   "buckets": [
  45.     [
  46.       "2020-03-25 16:44:00.000000",
  47.       "2021-03-25 16:44:00.000000",
  48.       0.42857142857142855,
  49.       3
  50.     ],
  51.     [
  52.       "2022-03-26 16:44:00.000000",
  53.       "2023-03-27 16:44:00.000000",
  54.       0.8571428571428571,
  55.       3
  56.     ],
  57.     [
  58.       "2024-03-25 16:44:00.000000",
  59.       "2024-03-25 16:44:00.000000",
  60.       1.0,
  61.       1
  62.     ]
  63.   ],
  64.   "data-type": "datetime",
  65.   "null-values": 0.0,
  66.   "collation-id": 8,
  67.   "last-updated": "2024-10-22 08:38:48.859681",
  68.   "sampling-rate": 1.0,
  69.   "histogram-type": "equi-height",
  70.   "number-of-buckets-specified": 3
  71. } |
  72. 用户手动指定buckets:
  73. greatsql> ANALYZE TABLE t2 UPDATE HISTOGRAM ON cc2 USING DATA '{"buckets": [[1, 0.25], [2, 0.5], [3, 0.625], [15, 0.75]], "data-type": "int", "null-values": 0.25, "collation-id": 8, "sampling-rate": 1.0, "histogram-type": "singleton", "number-of-buckets-specified": 4}';
  74. greatsql> select json_pretty(histogram)result from information_schema.column_statistics where table_name = 't2';
  75. | {
  76.   "buckets": [
  77.     [
  78.       1, 值
  79.       0.25 值占总数百分比
  80.     ],
  81.     [
  82.       2,
  83.       0.5
  84.     ],
  85.     [
  86.       3,
  87.       0.625
  88.     ],
  89.     [
  90.       15,
  91.       0.75
  92.     ]
  93.   ],
  94.   "data-type": "int",
  95.   "null-values": 0.25,
  96.   "collation-id": 8,
  97.   "last-updated": "2024-10-23 02:14:04.474196",
  98.   "sampling-rate": 1.0,
  99.   "histogram-type": "singleton",
  100.   "number-of-buckets-specified": 4
  101. }
复制代码
二、update_histogram代码解释

histogram.h/histogram.cc涉及直方图相关调用接口,等高直方图创建在equi_height.cc,等宽直方图创建在singleton.cc。
  1. bool update_histogram(THD *thd, Table_ref *table, const columns_set &columns,
  2.                       int num_buckets, LEX_STRING data, results_map &results) {
  3.   // UPDATE HISTOGRAM指定格式的直方图创建
  4.   if (data.str != nullptr) {
  5.     // Convert JSON to histogram
  6.     histograms::Histogram *histogram = Histogram::json_to_histogram();
  7.     // 直方图持久化
  8.     histogram->store_histogram(thd);
  9.   }
  10.   // Read data from the table into the Value_maps we have prepared.
  11.   // 根据随机抽样原则,从引擎抽样读取数据存入value_map,value_map结构为{唯一值,个数},抽样率计算见表三
  12.   if (fill_value_maps(resolved_fields, sample_percentage, tbl, value_maps))
  13.     return true;
  14.   // 针对每个指定列创建直方图
  15.   for (const Field *field : resolved_fields) {
  16.     // 按照下面表一规则创建直方图,把value_map的key值分配到每个桶,分配原则见函数build_histogram
  17.     value_maps.at(field->field_index())->build_histogram();
  18.   }
  19. }
  20. // 等高直方图创建
  21. bool Equi_height<T>::build_histogram(const Value_map<T> &value_map,
  22.                                      size_t num_buckets) {
  23.   for (; freq_it != value_map.end(); ++freq_it) {
  24.   添加数据到桶的规则:
  25.   1、该数据不是key值的最后一条
  26.   2、剩余的key值个数>剩余空桶数量
  27.   3、添加数据进去不会导致桶大小溢出,因为不知道每个key分别有多少个对应value,这里bucket_max_values用总行数(扣除null值后)进行二分法后用贪婪算法算出来的,一旦发现桶不够用了马上转到下一次二分法重新装数据计算,二分法最多次数10次,因此算出来的桶的高度可能偏大。详细见FindBucketMaxValues函数
  28.     if (next != value_map.end() &&
  29.         distinct_values_remaining > empty_buckets_remaining &&
  30.         bucket_values + next->second <= bucket_max_values) {
  31.       continue;
  32.     }
  33.   // 计算数据个数占总数的百分比,※注意这里的总个数包含null值
  34.   double cumulative_frequency =
  35.         cumulative_values / static_cast<double>(total_values);
  36.   if (m_buckets.push_back(bucket)) return true;
  37.   }
  38. }
  39. // 等宽直方图创建
  40. bool Singleton<T>::build_histogram(const Value_map<T> &value_map,
  41.                                    size_t num_buckets) {
  42.   const ha_rows total_count =
  43.       value_map.get_num_null_values() + num_non_null_values;
  44.   for (const auto &node : value_map) {
  45.     cumulative_sum += node.second;
  46.     // 按照数据个数求占总数据的百分比,※注意这里的总个数包含null值
  47.     const double cumulative_frequency =
  48.         cumulative_sum / static_cast<double>(total_count);
  49.     m_buckets.push_back(SingletonBucket<T>(node.first, cumulative_frequency));
  50.   }                              
  51. }
复制代码
首先创建主动等高直方图
  1. greatsql> CREATE TABLE t4 (d1 INT, d2 int, d3 varchar(100));
  2. greatsql> INSERT INTO t4 VALUES (1,2,'aa1'),(2,1,'bb1'),(2,3,'cc1'),(3,3,'cc1'),(4,2,'ff1'),(4,4,'ert'),(4,2,'f5fg'),(null,2,'ee'),(5,30,'cc1'),(5,4,'fcc1'),(4,10,'cc1'),(6,4,'ccd1'),(null,1,'fee'),(1,2,'aa1'),(2,1,'bb1'),(2,3,'cc1'),(3,3,'cc1'),(4,2,'ff1'),(4,4,'ert'),(4,2,'f5fg'),(null,2,'ee'),(5,30,'cc1'),(5,4,'fcc1'),(4,10,'cc1'),(6,4,'ccd1'),(null,1,'fee'),(1,2,'aa1'),(2,1,'bb1'),(2,3,'cc1'),(3,3,'cc1'),(4,2,'ff1'),(4,4,'ert'),(4,2,'f5fg'),(null,2,'ee'),(5,30,'cc1'),(5,4,'fcc1'),(4,10,'cc1'),(6,4,'ccd1'),(null,1,'fee');
  3. 查看数据分布情况,发现d1存在数据倾斜。下面的格式即value_map的格式
  4. greatsql> SELECT d1,count(*) FROM t4 GROUP BY d1;
  5. +------+----------+
  6. | d1   | count(*) |
  7. +------+----------+
  8. |    1 |        3 |
  9. |    2 |        6 |
  10. |    3 |        3 |
  11. |    4 |       12 |
  12. | NULL |        6 |
  13. |    5 |        6 |
  14. |    6 |        3 |
  15. +------+----------+
  16. 7 rows in set (0.00 sec)
复制代码
等高直方图不同桶装的最多数据个数bucket_max_values
桶个数总行数(扣掉null值)每个桶最多数据个数233213331243395339接着创建主动等宽直方图
  1. -- 先创建等高直方图,t4表扣掉null值一共33行,这里创建出来每个桶最多装12行数据。
  2. greatsql> ANALYZE TABLE t4 UPDATE HISTOGRAM ON d1 WITH 3 BUCKETS;
  3. greatsql> SELECT json_pretty(histogram)result FROM information_schema.column_statistics WHERE table_name = 't4';
  4. | {
  5.   "buckets": [
  6.     [
  7.       1,
  8.       3,
  9.       0.3076923076923077, 计算公式9/39 ※注意这里的总个数包含null值
  10.       3
  11.     ],
  12.     [
  13.       4,
  14.       4,
  15.       0.6153846153846154,
  16.       1
  17.     ],
  18.     [
  19.       5,
  20.       6,
  21.       0.8461538461538461,
  22.       2
  23.     ]
  24.   ],
  25.   "data-type": "int",
  26.   "null-values": 0.15384615384615385,
  27.   "collation-id": 8,
  28.   "last-updated": "2024-10-24 03:15:54.463774",
  29.   "sampling-rate": 1.0,
  30.   "histogram-type": "equi-height",
  31.   "number-of-buckets-specified": 3
  32. } |
  33. -- 先创建等高直方图,t4表扣掉null值一共33行,这里创建出来每个桶最多装9行数据。
  34. greatsql> ANALYZE TABLE t4 UPDATE HISTOGRAM ON d1 WITH 5 BUCKETS;
  35. greatsql> SELECT json_pretty(histogram)result FROM information_schema.column_statistics WHERE table_name = 't4';
  36. | {
  37.   "buckets": [
  38.     [
  39.       1,
  40.       2,
  41.       0.23076923076923078,
  42.       2
  43.     ],
  44.     [
  45.       3,
  46.       3,
  47.       0.3076923076923077,
  48.       1
  49.     ],
  50.     [
  51.       4,
  52.       4,
  53.       0.6153846153846154,
  54.       1
  55.     ],
  56.     [
  57.       5,
  58.       5,
  59.       0.7692307692307693,
  60.       1
  61.     ],
  62.     [
  63.       6,
  64.       6,
  65.       0.8461538461538461,
  66.       1
  67.     ]
  68.   ],
  69.   "data-type": "int",
  70.   "null-values": 0.15384615384615385,
  71.   "collation-id": 8,
  72.   "last-updated": "2024-10-24 06:42:40.102386",
  73.   "sampling-rate": 1.0,
  74.   "histogram-type": "equi-height",
  75.   "number-of-buckets-specified": 5
  76. } |
复制代码
数值个数占比133/39269/393312/3941224/395630/396333/39下面看一个sampling-rate小于1的例子
  1. -- 先创建等高直方图,t4表扣掉null值一共33行,这里创建出来每个桶最多装12行数据。
  2. greatsql> ANALYZE TABLE t4 UPDATE HISTOGRAM ON d1 WITH 6 BUCKETS;
  3. greatsql> select json_pretty(histogram)result from information_schema.column_statistics where table_name = 't4';
  4. | {
  5.   "buckets": [
  6.     [
  7.       1,
  8.       0.07692307692307693 计算公式3/39 ※注意这里的总个数包含null值
  9.     ],
  10.     [
  11.       2,
  12.       0.23076923076923078
  13.     ],
  14.     [
  15.       3,
  16.       0.3076923076923077
  17.     ],
  18.     [
  19.       4,
  20.       0.6153846153846154
  21.     ],
  22.     [
  23.       5,
  24.       0.7692307692307693
  25.     ],
  26.     [
  27.       6,
  28.       0.8461538461538461
  29.     ]
  30.   ],
  31.   "data-type": "int",
  32.   "null-values": 0.15384615384615385,
  33.   "collation-id": 8,
  34.   "last-updated": "2024-10-24 06:53:37.256033",
  35.   "sampling-rate": 1.0,
  36.   "histogram-type": "singleton",
  37.   "number-of-buckets-specified": 6
  38. } |
复制代码
四、总结

从上面直方图创建的步骤我们认识了直方图的类型和创建方法,包括主动和手动两种,以及等宽和等高直方图的区别,学会了查看直方图的桶个数和数据,如果表是一张大表的话,想让样本尽可能多的被抽样,那么系统变量histogram_generation_max_mem_size就设置大一点,这样精确度更高,当然相对的更占硬盘资源。下一节讲直方图的应用。

Enjoy GreatSQL
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

天津储鑫盛钢材现货供应商

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表