篮之新喜 发表于 4 天前

联邦学习安全聚合算法综述(论文解析)以及怎样确定自己研究方向的方法

自己写相关论文的方法:

可以重点看看综述类论文的将来研究方向和引言中前人已经做过的内容

联邦学习安全聚合算法综述
auth:江萍 1 通讯作者 李芯蕊 1 赵晓阳 2 杭永凯
择要

 择要:随着深度学习技术的发展,人工智能在社会的各个方面有着紧张的应用,但缺少数据已经成为制约人工智能进一步发展 的紧张因素。联邦学习通过共享梯度的方式可以有效利用边缘节点数据,有效办理人工智能模型训练的数据问题。但在联邦学 习中,由于攻击者可以利用共享的梯度发动恶意攻击来窃取用户隐私,以是怎样安全上传梯度并举行聚合成为保障联邦学习中 隐私安全的紧张课题。因此,本文针对国表里联邦学习安全聚合的相关文献举行研究,分析安全聚合对于联邦学习中隐私保护 的紧张性,同时本文对现有的安全聚合方案举行总结,对实现安全聚合的不同技术手段展开分析。
关键词:联邦学习;安全聚合;隐私保护


联邦学习相关概念

为了满意人工智能利用过程中的隐私保护要求,Google 公司在 2017 年提出联邦学习这一概念。

联邦学习的参与方包罗两个角色,分别是客户端和服务器。在每次模型训练 过程中,客户端在利用本地训练一个子模型,然后将子模型 而不是数据上传到客户端。客户端在收到所有客户端的子模 型后对子模型举行聚合得到最终的全局模型。在这个过程中 既利用了所有的本地数据,也保证了用户私人数据不出域, 通过共享梯度的方式实现数据的“可用不可见”,保证数据使 用的过程合规合法,从而促使更多的数据持有者参与模型训 练,扩大数据规模,提高模型性能。

一、现在研究情况

Huang 等人 提出一种个性化联邦学习的方案办理联邦学习中数据异质性 导致的收敛速度慢等问题,Chai 等人利用联邦学习实现了 一种保证用户隐私的保举系统,Sun 等人利用神经网络中的 量化技术减小联邦学习的模型规模,提高通信效率。
固然联邦学习诞生的初衷是为了办理多方参与人工智能模型训练过 程中的隐私问题,但有许多文献指出联邦学习仍旧存在安全 毛病与隐私泄露风险。联邦学习期望通过上传梯度而不是直 接上传数据来保证参与方的数据隐私,但是后续的研究发 现攻击者可以通过反转梯度还原训练数据,这种攻击方式增 加了联邦学习的隐私泄露风险。除此之外,攻击者还可以伪 装成联邦学习参与方,通过本地模型和全局模型对其他参与 方的隐私举行推断攻击。因此,针对联邦学习的隐私增强成 为联邦学习安全的紧张研究内容。

而大部分数据持有方出于隐私保护等方面 的考虑并不会直接提供数据。这种征象也被称为“数据孤岛”。

2.1联邦学习原理与分类

联邦学习最早由 McMahan 等人提出,并命名为 FedAvg 算法。在 FedAvg 算法中,紧张角色有客户端与服务端两种, 客户端提供数据举行子模型的训练,服务端聚合所有客户端 的子模型生玉成局模型。一次典范的联邦学习过程包含以下 步骤:
1.所有客户端利用本地数据在本地训练一个子模型,并 将子模型上传到服务端;
2.服务端在网络到所有客户端发送的子模型后对模型进 行聚合,生玉成局模型。
3.服务端将全局模型发送至所有参与方。 在这个过程中,客户端的数据并没有举行传输,而是通 过上传梯度来保证参与方的数据隐私。

由于联邦学习参与方的异质性,一般通过数据的性质将 联邦学习分为横向联邦学习、纵向联邦学习和迁移联邦学习。 对于这三种不同的联邦学习方式,紧张通过数据与特征的对 齐位置决定。如果参与联邦学习的数据特征一致,数据条目 不一致,即通过扩展样本的数量增长模型训练的精度,则称 之为横向联邦;例如不同地区的银行举行联邦学习,由于银 行业务雷同但地区不同,以是样本不同但特征雷同。如果参 与联邦学习的数据条目一致,特征不一致,即通过联邦学习 扩展已有数据的特征空间,则称之为纵向联邦;例犹如一地 区的银行和保险公司举行联邦学习,由于业务不同但地区相 同,以是样本雷同但特征不同。如果参与联邦学习的数据条 目与特征都不一致,则称之为迁移联邦;例如不同地区的银 行和保险公司参与联邦学习,特征与数据都不雷同
2.2 联邦学习中的隐私与安全问题
在深度学习特别是分布式深度学习中,直接上传数据进 行训练会导致参与者的隐私泄露,以是联邦学习通过上传梯 度来保证参与者的隐私。但后来有研究证实,梯度也会导致 参与者的隐私泄露。除此之外,由于联邦学习多参与方、多轮 通信等特点,联邦学习面对着更大的安全与隐私风险:无法 保证参与方的合法性,攻击者可以伪装成合法参与者或通过 监听信道发起攻击。

2.2.1 联邦学习中的安全问题
针对联邦学习的安全问题紧张包含两类,一类是由于联 邦学习中多轮通信引起的,一类是联邦学习中各参与方身份 不完全可信引起的。对于多轮通信引起的安全问题紧张还是 基于传统的安全视角:在梯度的传输过程中容易被攻击者监 听、窃取甚至修改。而由于参与方身份引起的安全问题与深 度学习原生的安全性相关,例如攻击者伪装成为合法的参与 方,发送恶意梯度来破坏模型性能。此外,现在针对联邦学习 安全性的研究大多将服务器的性质也做了规定,一般以为联 邦学习中的聚合服务器是“诚实且好奇的”,即服务器会“诚实” 执行预先设定好的步伐,但会对执行的内容感到“好奇”。对于 联邦学习中的安全问题,本节将先容具有代表性的投毒攻击 以及后门攻击。

(1)投毒攻击:针对机器学习领域的投毒攻击最早由 Biggo 等人提出,其攻击方式紧张通过翻转数据标签来破 坏支持向量机性能的情势实现。而在联邦学习中,由于参与 方数量巨大且身份无法保障,攻击者可以伪装成合法参与者 《网络安全技术与应用》2024 年第 9 期 安全模型、算法与编程 ‖49‖ 并窜改上传的梯度,到达攻击的效果。一般而言,对于投毒攻 击可以分为数据投毒和模型投毒,其区别紧张在于发起攻 击的方式。数据投毒紧张通过修改数据信息以到达低沉全局 模型性能的效果,例如 Shafahi 等人提出一种通过在现有数 据会合添加噪声的方式举行数据投毒。Zhang 等人利用生 成对抗网络(Generative Adversarial Networks,GAN)生成中 毒数据举行攻击。对于模型投毒,攻击者紧张通过对上传的 梯度举行窜改从而到达对全局模型性能消耗的目的。Rong 等 人针对联邦保举系统提出一种利用公共数据来近似特征向 量,并进一步设计更加潜伏的中毒梯度,从而到达投毒攻击 的效果。Zhang 等人利用 GAN 学习其他良性梯度的特点, 并生成与良性梯度相似的中毒梯度。在中毒攻击中有一种比 较特别的情势,即攻击者的数量占比高出二分之一。在这种 情况下,较为常见的投毒攻击防御手段都无法生效,这种情 况也被称为联邦学习中的拜占庭问题。
(2)后门攻击:投毒攻击的紧张目的在于通过恶意梯度 或者恶意数据来低沉全局模型的正确度,而后门攻击是在不 影响全局模型精度的情况下低沉模型在某一类数据上正确度, 其攻击手段也是通过数据投毒或模型投毒实现,因此在联邦 学习中,许多研究者将后门攻击归纳为特别的投毒攻击。 针对深度学习的后门攻击最早由 Chen 等人提出,通过注 入少量中毒实例就可以实现对神经网络的后门攻击。在联邦 学习领域,Sun 等人讨论了联邦学习中后门攻击的可能性 与潜在防御手段,并实验证实了攻击的有效性。Fang 等人 则提出一种在拜占庭方式下的投毒攻击方案,可以大概在 Krum、 Trimmed mean等主流的防御方案下依然生效。

2.2.2联邦学习中的隐私问题  

上文对联邦学习面对的安全问题举行了简单的总结,实 际上联邦学习面对的问题除了安全问题之外还有隐私问题。 安全问题紧张目的在于破坏联邦学习模型的正确性等性能, 隐私问题紧张目的在于获取参与方的各类隐私信息,不对模 型正确性举行破坏。联邦学习的隐私问题紧张来自模型反演 攻击,模型反演攻击可以大概通过梯度反向训练模型来还原训 练数据。而联邦学习中训练过程在客户端一侧完成,且客户 端通过梯度上传来完成聚合,这种设置大幅增长了联邦学习 遭受模型翻转攻击的可能性,导致联邦学习的隐私泄露风险 急剧增长。针对联邦学习中数据隐私的攻击方式紧张包罗推 断攻击与重修攻击两种。 (1)推断攻击:推断攻击指攻击者利用模型的中心参数 或其他模型相关信息来推断用户以及模型的敏感属性。例如 Shokri 等人通过推断攻击可以推测某条数据是否存在于训 练会合。正如上文所说,由于联邦学习的梯度信息完全公开, 以是增长了遭受推断攻击的可能性。Melis 等人在联邦学习 中实现了推断攻击,证实了共享梯度潜在的隐私泄露风险。 (2)重修攻击:重修攻击指攻击者利用模型得到中心参 数或其他模型相关信息来重修训练数据。重修攻击的思路来 自模型反演攻击,Zhu 等人提出的梯度泄露攻击不必要任何 辅助数据和额外的训练,利用优化的方式,从梯度数据中直 接恢复训练数据。之后 Ren 等人提出一种利用 GAN 来重 建图像数据的联邦学习重修攻击方法。

3 梯度泄露攻击与安全聚合  

梯度泄露攻击的提出导致联邦学习无法通过上传梯度来 保护数据隐私,因此研究人员通过安全聚合来保证联邦学习 的梯度可以安全上传并举行聚合。本章将先容梯度泄露攻击 以及常见的安全聚合方案。
3.2 安全聚合方案   

为了防止攻击者通过梯度来重修用户隐私,现在较为主流的办理方案为安全聚合,通过密码学手段或隐私增强技术 来防止攻击者直接得到梯度。但是安全聚合的一个问题在于, 怎样对加密后或者隐私增强后的梯度举行聚合。此外,现在 大多数方案都假设联邦学习中聚合服务器“诚实且好奇”,这 进一步加大了安全聚合的难度。对于一次聚合来说,必要达 到以下条件:
(1)每个客户端上传增强后的梯度,攻击者、服务器或 其他客户端无法直接得到原梯度;
(2)服务器收到所有梯度后在服务器端举行聚合,聚合 后的梯度是透明的,但聚合前与聚合中的梯度对于服务器仍 然不可见;
(3)由于联邦学习中的装备异质性,部分客户端可能会 因为网络或装备故障无法参与聚合,聚合方案必要考虑故障 装备退出的处理方案。 除了以上三点之外,安全聚合方案还必要考虑客户端选 择、聚合效率等因素,本章将先容现在较为主流的安全聚合 方案。
除了以上三点之外,安全聚合方案还必要考虑客户端选 择、聚合效率等因素,本章将先容现在较为主流的安全聚合 方案。
3.2.1 基于掩码的安全聚合方案   

基于掩 码的方案利用随机数隐藏真实的梯度,该随机数也就是掩码。
3.2.2 基于多方安全计算的安全聚合方案  

多方安全计算最早可以追溯到百万富翁问题,如果两个 富翁希望比较他们之间的财富值,但又不想让对方或第三方 知道他们财富的具体值。基于这个问题产生了多方安全计算 这个概念。对应到联邦学习中,每个参与方都期望可以大概将自 己上传的梯度举行聚合,但又不希望透露自己上传梯度的真 实值,这恰恰符合多方安全计算的特质。现在较为常见的多 方安全计算方法包罗混淆电路、秘密共享等。而在联邦学习 安全聚合中,较为经典的方案就是通过秘密共享实现隐私保 护的联邦安全聚合。 
3.2.3 基于同态加密的安全聚合方案  

3.2.4 基于差分隐私的安全聚合方案  

4 联邦学习将来研究方向(写新论文的话可以重点看看这章)   

即使现在联邦学习存在隐私泄露、效率较低、异质性问 题等缺陷,但不可否认联邦学习仍旧可以大概有效利用不同持有 方的数据举行训练,将来关于联邦学习的研究方向将在提高隐私保护性能、提高效率、办理异质性这几个方面展开。 在提高隐私保护性能方面,进一步研究安全攻击以及隐 私泄露方法,通过差分隐私、同态加密等隐私增强方法来保 证联邦学习中的隐私安满是十分必要的。特别是怎样将安全 聚合与反抗投毒攻击的方法举行结合将是联邦学习安全与隐 私方面研究的重点。在效率方面,必要进一步提高联邦学习 的模型训练效率,淘汰通信开销。研究将重点放在低沉模型 更新传输的数据量、提高模型更新的压缩效率、优化模型结 构等方面,以进一步提高联邦学习的现实可行性。关于异质 性,则必要通过个性化联邦学习等方案举行优化。


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 联邦学习安全聚合算法综述(论文解析)以及怎样确定自己研究方向的方法