读数据掩护：工作负载的可恢复性08去重技能（下）

光之使者 · 2024-12-9 06:20:50

1. 目标去重技能

1.1. 目标去重（也叫目标端的去重）体系是在接到备份之后删除此中重复数据的去重体系
1.2. 通常在某个设备里面运行，该设备是所有备份的目标设备，因此，这样的去重体系叫作目标去重体系

1.2.1. 一般通过NFS或SMB与备份软件相连，然而也可以作为VTL（Virtual Tape Library，假造磁带柜）来连接
1.2.2. 备份服务器还可以通过某种专门的协议跟目标去重设备通讯，这样更安全、更高效

1.3. 目标去重体系在最近20年变得相当流行

1.3.1. 只要求负责备份的人稍作设置。你只需要换掉磁带柜，接上新的目标去重体系并将其设为备份目标
1.3.2. 并非所有的目标去重体系都由一台（不了解去重工作的）备份服务器与一台负责去重的设备构成
1.3.3. 运行在备份服务器或介质服务器里的某些备份软件，也可以执行目标端的去重工作

1.4. 目标去重体系通常还能够把备份复制到同品牌的另一个目标去重体系上，这样我们无须打仗磁带就能拥有现场备份与离场备份

1.4.1. 愿意采用一种混合的方案，也就是用目标去重体系做现场备份，用磁带做离场备份
1.4.2. 先使用目标去重体系做备份，然后用备份体系把这些备份复制到磁带柜，以创建离场的副本
1.4.3. 数据流以足够快的速度发给磁带机，那么它们就能够运作得相当高效
- 1.4.3.1. 目标去重体系对于磁带体系来说相当于一个巨大的缓存库
- 1.4.3.2. 把目标去重体系里的备份复制到磁带上时，磁带机能够全速运行，因此效率会很高

1.5. 就地去重

1.5.1. 采用就地去重（inline deduplication，也叫在线去重/即时去重），那么去重体系会先利用CPU对内存中的数据去重，然后再将其写入磁盘
1.5.2. 如果去重设备做的是就地去重，那就不用把已经判定为重复的那些数据，再写入磁盘之中，因而能够节流一些I/O操纵
1.5.3. 为了在接收备份数据的同时对其去重，你必须给去重设备安装强大的CPU，否则就会导致该设备无法将它所接收到的备份数据及时去重，从而拖慢工作进度
1.5.4. 如果你想让去重过程只管与备份过程一起结束（而不肯意先写入备份，然后再去重），想让去重体系能够把刚写入磁盘的备份尽快复制到其他地方，那么就应该考虑就地去重

1.6. 后置去重

1.6.1. 采用后置去重（post-process deduplication，也叫后去重/后处理去重），那么去重体系会先把数据写入磁盘，然后再去重，这种去重方式又称为异步去重(asynchronous deduplication)
- 1.6.1.1. 如果用的是后置去重，那么在把备份写入磁盘之后，还必须执行其他一些操纵才行
- 1.6.1.2. 如果去重设备做的是后置去重，那必须先把收到的数据写入暂存区(landing zone)
1.6.2. 去重方式在处理已写入磁盘的备份时依然能够接收外界传入的备份，但它并不会直接（大概说就地）给那些备份去重，而是要等它们也像前者一样写入磁盘之后，再做去重
1.6.3. 去重方式是异步的，而不是同步的
1.6.4. 让去重流程从此中读取备份，并去除此中的重复内容，然后将其作为已去重的备份，写入保存成品备份数据的谁人地域
1.6.5. 暂存区的第二个用途：如果你需要把这个备份里的数据恢复或复制出来，那么速度会比采用就地去重技能所写入的那种备份要快，因为后者必须对去重之后的备份做reduplicate，也就是将此中已经去除的重复数据补回来，只有这样，才能从备份里恢复或复制数据，这个填补缺失数据的操纵，又称为rehydrate
1.6.6. 如果你要随机读写数据，那么把最近制作的谁人备份保存成原始格式尤其方便
1.6.7. 在读取备份时用的都是顺序访问模式，这是因为从前在读取磁带里面的数据时，只能按照先后顺序来读取
1.6.8. 即时恢复，为了使用该功能，你需要把备份挂载成读写模式
- 1.6.8.1. 采用就地去重技能的体系做不到这种即时恢复的效果，因为它们在恢复数据时的速度比较慢
1.6.9. 必须耗费一定的本钱来构建暂存区
- 1.6.9.1. 后置去重需要先把备份全都写到暂存区里，然后从暂存区中读出备份，并把此中的许多重复内容删掉，末了写入成品区，这一系列步骤必须执行大量的I/O操纵才能完成，这个数量可能远超就地去重所要执行的I/O操纵数
1.6.10. 如果你更关心的是如何尽快把备份制作出来，大概想要频繁地执行即时恢复，那么后置去重更加符合

1.7. 目标去重设备所具备的能力让它可以进入任何一个数据中心，因为无论此中用的是什么备份体系，这种技能险些都能与之团结

1.7.1. 必须把自己收到的备份数据剖开，这意味着，它需要打开存放备份数据的这个容器
1.7.2. 要求我们必须把完全备份以及全文件式的增量备份通过网络发给它，这会无谓地占用很多带宽

2. 源端去重技能

2.1. 源端去重(source deduplication)又称泉源端的去重或客户端去重，这种去重是在备份流程刚启动时就开始执行的

2.1.1. 去重必须由备份软件自己执行

2.2. 首先要求备份软件必须只管降低它交给去重体系的数据量，这通常意味着备份体系应该采用那种从刚开始就一直做增量备份的办法，并且只在必要时才做普通的增量备份
2.3. 目标去重最大的优点在于它采用全新的方式去重，不需要大幅调整现有体系，而源端去重则需要对现有体系做较大的改动

2.3.1. 为了发挥源端去重的优势，你很有可能要把现在使用的备份软件与磁盘换掉，对于像备份体系这么紧张的体系来说，这是一个相当大的变动
2.3.2. 目标去重所要做的变革通常很小，你只需要扔掉谁人（你可能很厌烦的）磁带柜就行了（大概至少可以说，你不再把磁带柜当成主要的备份目标）

2.4. 源端去重是由备份软件自己完成的，它们能够直接利用有待去重的文件、镜像、字节或二进制位
2.5. 源端去重只需要把接下来的这次增量备份所包含的文件与镜像切割成chunk，并去除此中的重复内容，而不像目标去重那样，必须把从前已经做好的备份打开，才能知道现在要做的这个备份里有哪些内容是跟原来重复的
2.6. 要求用户必须大幅调整现有的体系
2.7. 要求有待备份的体系必须执行其他一些操纵，以配合这个去重的过程

2.7.1. 体系必须把增量备份的数据切割成chunk，然后计算每个chunk的哈希码，并根据这个哈希码在哈希表中查找

3. 混合去重

3.1. 混合去重(hybrid dedupe)并不是公认的术语
3.2. 让你在有待备份的站点那里给备份客户端安装一个特别的驱动程序，这个驱动程序会创建一个指向备份的假造设备
3.3. 驱动程序就能够先对备份客户端做源端去重，然后再把数据通过网络发给备份目标
3.4. 由于目标去重体系还要对这些数据做目标去重，因此称为混合去重
3.5. 备份软件必须支持这个特别的设备，而且操纵体系也必须能够安装这个特别的驱动程序
3.6. 如果你已经有了目标去重体系，而且想给源端添加去重功能，那么可以考虑运用该技能
3.7. 架构要通过特别的设备传输数据，而这些数据，本来应该是由备份客户端传输的，备份软件通常会针对这样的用法收取更多的费用，这会让本钱变高
4. 选择符合的去重方式

4.1. 做选择之前，首先要核实备份软件的制作方可否在他们所制作的产品里支持源端去重或目标去重
4.2. 想拿备份挂载大量的假造机，那就应该考虑后置去重
4.3. BaaS（Backup-as-a-Service，备份即服务）式的产品
4.4. 要做全面测试

4.4.1. 除了数据掩护领域，IT界还没有哪个领域的测试结果会根据产品的使用环境而发生如此大的变革

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

读数据掩护：工作负载的可恢复性08去重技能（下）

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云