PostgresSql VACUUM 剖析

怀念夏天 · 2024-6-27 17:59:46

为什么必要 Vacuum

MVCC

MVCC：Multi-Version Concurrency Control，即多版本并发控制。
PostgreSQL 使用多版本并发控制（MVCC）来支持高并发的事务处理，同时保持数据的一致性和隔离性。MVCC 是一种用于管理数据库并发操作的技能，它允很多个事务同时访问同一数据，而不会产生辩论或壅闭。
MVCC 的工作原理

版本化：
PostgreSQL 为表中的每行数据存储多个版本。当一个事务更新一行数据时，它不会立即覆盖原始数据，而是创建该数据的新版本。
事务ID：
每个事务被分配一个唯一的事务ID（XID），该ID 用于跟踪数据的变动。
快照：
当一个事务开始时，它会创建一个快照，该快照是数据库在某一时刻的状态。即使其他事务在该事务进行时对数据进行了更改，该事务仍然可以看到它开始时的数据库状态。
可见性规则：
MVCC 通过一组可见性规则来确定事务可以看到哪些数据版本。通常，一个事务只能看到在它开始之前已经提交的其他事务所做的更改。
垃圾接纳：
PostgreSQL 使用 VACUUM 命令来清理不再必要的数据版本，开释空间。VACUUM 操作由体系自动调度，也可以手动执行。

MVCC 的关键特点：

无锁读取：
MVCC 允许其他事务在读取数据时不被锁定，因为它们可以访问数据的旧版本。
写入时复制：
当数据被更新时，PostgreSQL 会复制旧版本的数据并创建新版本，而不是直接在原地修改。
隔离级别：
PostgreSQL 支持不同的事务隔离级别，如读未提交（Read Uncommitted）、读已提交（Read Committed）、可重复读（Repeatable Read）和串行化（Serializable）。隔离级别决定了事务可以看到其他事务更改的时间点。
性能：
MVCC 可以提高数据库的性能，因为它淘汰了锁的争用和事务间的壅闭。
一致性：
通过使用快照，MVCC 确保了事务在整个过程中看到的是一致性的数据视图。

MVCC 的挑战：

表膨胀：
由于多版本的存在，表可能会膨胀，必要定期维护。
长事务：
长事务可能导致较旧的数据版本长时间不被接纳，从而影响性能和空间。
体系资源：
MVCC 必要额外的体系资源来管理多个数据版本。

MVCC 是 PostgreSQL 强大并发控制机制的核心，它使得数据库能够高效地处理大量的并发事务，同时保持数据的一致性和隔离性。
表膨胀

多版本并发控制机制（MVCC）的原理在于，当它必要更改某块数据的时候，它不会直接去更改，而是会创建这份数据的新版本，在新版本进行更改，所以会存储多份版本，每个事务能望见哪一份版本的数据，由事务隔离级别控制。
MVCC引入了一个问题，怎样消除老旧的、没有使用的无用数据（版本），现在主流上有3种处理实现方式：
来看看各种数据库的解决方式：

以Oracle为代表的，把旧版本数据放入UNDO，新数据放入REDO，然后更改数据。这种方式，旧版本的数据放入了UNDO，所以可以有效避免膨胀。
以SQL Server为代表的，把旧版本的数据写入专门的临时表空间，新数据写入日记，然后去更改数据。这种方式，旧版本的数据放入了专门的临时表空间，所以也可以有效地避免膨胀。
以PostgreSQL为代表的，把旧版本标示为无效，新数据写入日记，成功后把新版本的数据写入新的位置。这种实现机制是导致数据膨胀严重的一个重要原因，因为旧版本的数据固然表示为无效状态，但是没被接纳前还是占据存储空间。

Vacuum 工作原理

PostgreSQL的表膨胀清理就必要依靠vacuum，vacuum的主要使命就是清理表和索引中不必要的数据（dead tuples），为新加入的数据清理出来空间。
Vacuum

PostgreSQL中的VACUUM命令是一种数据库维护使命，用于清理数据库中的无用空间（也称为“dead tuples”或“ghost tuples”），并防止表膨胀。VACUUM还更新数据库的统计信息，这些信息由查询优化器用来选择最有效的查询计划。以下是VACUUM怎样工作的详细步骤：

标记删除：
PostgreSQL使用一种称为标记-清除（mark-sweep）的垃圾收集机制。当DELETE或UPDATE命令删除或修改表中的数据行时，原始数据行不会被立即从存储中移除，而是被标记为“已删除”。这意味着这些行仍然占用空间，但对查询来说是不可见的。
移除元组：
这里的移除dead tuples只是标记为可重用该空间，并没有真正物理删除。所以vacuum清理表后，表的现实空间并没有减小。dead tuples在做移除标记后，vacuum会重新排列剩余的元组以进行碎片化整理。然后，必要更新目标表的VM（可见性映射文件）和FSM（空闲空间映射文件）。
更新统计信息：
VACUUM收集有关表和索引中数据分布的统计信息，并将这些信息存储在体系目次中。这些统计信息对于查询优化器来说是至关重要的，因为它们帮助优化器决定怎样执行查询。

VACUUM 在这段时间删除的数据，并不会从此磁盘上删除，只是将数据标为可删除，这部分可删除的空间会出现以下两种环境：

当有新的数据进行，新数据会写入至这部分可删除的空间中，即老数据从磁盘上移除了

体系执行 vacuum full ，PgSql 会重新整理所有的元组(Tuples)，最终将数据从磁盘上移除，这一步比较泯灭资源和时间，有可能锁表，生产环境慎用！

Vacuum Full

Vacuum Full和Vacuum最大的不同就是，Vacuum Full是物理删除dead tuples，并把开释的空间重新交给操作体系，所以在vacuum full后，表的大小会减小为现实的空间大小。其处理过程和 vacuum 大不相同，处理步骤如下：

创建排它锁
vacuum full 开始执行时，体系会先对目标创建一个AccessExclusiveLock ，不允许外界再进行访问（为后面拷贝做准备）。
创建新表
体系会创建一张表结构和源表一模一样的新表，方便后续做数据操作。
复制数据
扫描目标表，把表中的live tuples 拷贝到新表中。
更换数据表
删除目标表，在新表上，重新创建索引，更新VM， FSM以及统计信息，相关体系表等。

综上所述，vacuum full的本质是生成一个新的数据文件，然后把原有表的live tuples存放到该数据文件中。对比vacuum， vacuum full缺点就是在执行期间不能对表进行访问，由于必要往新表中导入live tuples数据，其执行服从也会很慢。优点是执行后，表空间只存放live tuples，没有冗余的dead tuples，在执行查询服从上会有所提高。
但是，vacuum full 也有存在的问题，在执行过程中，它会block所有对表的访问，不光是写操作，读操作也会全部block。很多环境下这是不可接受的，尤其是生产环境。
Vacuum 的利益

PostgreSQL中的VACUUM命令具有多个利益，主要包罗：

接纳空间：VACUUM可以清理数据库中的无用空间，即那些被标记为“已删除”的行占用的空间，从而开释这些空间供其他数据使用。
更新统计信息：VACUUM会更新数据库的统计信息，这些信息对于查询优化器选择最有效的查询计划至关重要。
维护索引：VACUUM还会维护索引，删除索引中指向已删除数据行的条目，并可能重建索引以优化性能。
防止表膨胀：随着时间推移，表中的死元组会越来越多，这会导致存储空间利用率降落，VACUUM可以防止这种环境。
提高查询性能：通过清理无用的元组，VACUUM可以淘汰查询必要遍历的数据量，从而提高查询性能。
自动接纳空间：VACUUM可以自动接纳已经开释的空闲空间，淘汰了数据库管理员的手动干预。

VACUUM是PostgreSQL数据库维护和性能优化的重要组成部分，正确理解和运用VACUUM命令及其变种，对于保持数据库的精良运行状态具有重要意义。
Vacuum 的最佳实践

PostgreSQL中的VACUUM操作是数据库维护的重要组成部分，以下是一些最佳实践：

定期执行VACUUM：根据业务负载和表的更新频率，制定合理的VACUUM计谋，特别是对于频繁更新的大表。
启用并调优Autovacuum：依靠Autovacuum来自动维护数据库健康。通过调解autovacuum_vacuum_threshold和autovacuum_vacuum_scale_factor等参数，可以更准确地控制自动VACUUM的触发时机。
考虑使用VACUUM FULL：固然VACUUM FULL可以最大程度地开释磁盘空间，但由于它可能会锁定表并必要较长时间执行，建议在业务低峰期使用，并确保有富足的磁盘空间来创建表的新副本。
监控Vacuum活动：利用pg_stat_user_tables视图或其他监控工具，了解Vacuum操作的状态和效果，以便及时调解相关参数。
不要无故运行手动VACUUM或ANALYZE：Autovacuum通常可以很好地管理数据库，除非有特殊环境，否则不必频繁手动执行这些操作。
在数据批量加载后运行ANALYZE：在大量新数据被插入数据库后，运行ANALYZE以确保统计信息的正确性，从而帮助查询优化器制定更有效的查询计划。
收集数据库信息：在调解参数或实施手动VACUUM/ANALYZE之前，收集有关数据库的富足信息，如表的行数、死元组数、末了一次VACUUM/ANALYZE的时间等，以便做出更明智的决策。

通过遵循这些最佳实践，可以确保数据库的性能和健康状况得到精良的维护。
‍
参考文档：
Kimi.ai - 帮你看更大的天下
PostgreSQL的表膨胀与Vacuum和Vacuum Full - 明矾 - 博客园
深入浅出 PostgreSQL VACUUM 流程，全面掌控数据健康与性能！ - ByteZoneX社区
blog/202405/20240530_01.md at master · digoal/blog · GitHub
‍

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

PostgresSql VACUUM 剖析

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块