瑞星 发表于 2024-9-3 11:53:09

大模型隐私泄露攻击技巧分析与复现

前言

大型语言模型,尤其是像ChatGPT这样的模型,只管在天然语言处理领域展现了强大的本领,但也陪同着隐私泄露的潜伏风险。在模型的练习过程中,可能会接触到大量的用户数据,其中包罗敏感的个人信息,进而带来隐私泄露的可能性。此外,模型在推理时有时会偶然中回想起练习数据中的敏感信息,这一点也引发了广泛的关注。
隐私泄露的风险主要来源于两个方面:一是数据在传输过程中的安全性,二是模型本身的记忆风险。在数据传输过程中,假如没有采取充分的安全措施,攻击者可能会截获数据,进而偷取敏感信息,给用户和组织带来安全隐患。此外,在模型的练习和推理阶段,假如使用了个人身份信息或企业数据等敏感数据,这些数据可能会被模型运营方窥探或网络,存在被滥用的风险。
过去已经发生了多起与此相关的事件,导致许多大公司禁止员工使用ChatGPT。此前的研究表明,当让大模型反复生成某些特定词汇时,它可能会在随后的输出中袒露出练习数据中的敏感内容。
学术研究表明,对模型进行练习数据提取攻击是切实可行的。攻击者可以通过与预练习模型互动,从而恢复出练习数据集中包含的个别示例。比方,GPT-2曾被发现可以或许记着练习数据中的一些个人信息,如姓名、电子邮件地点、电话号码、传真号码和现实地点。这不仅带来了严峻的隐私风险,还对语言模型的泛化本领提出了质疑。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503759.png
本文要探讨的就是可以高效从大模型中提取出用于练习的隐私数据的技巧与方法,主要来自《Bag of Tricks for Training Data Extraction from Language Models》,这篇论文发在了人工智能顶级聚会会议ICML 2023上。
配景知识

只管大模型在各种卑鄙语言使命中展现了令人瞩目的性能,但其内涵的记忆效应使得练习数据可能被提取出来。这些练习数据可能包含敏感信息,如姓名、电子邮件地点、电话号码和物理地点,从而引发隐私泄露问题,阻碍了大模型在更广泛应用中的推进。
之前谷歌举办了一个比赛,链接如下
https://github.com/google-research/lm-extraction-benchmark/tree/master
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503840.png
这是一个针对性数据提取的挑衅赛,目的是测试参赛者是否能从给定的前缀中正确预测后缀,从而构成整个序列,使其包含在练习数据集中。这与无针对性的攻击不同,无针对性的攻击是搜索练习数据集中出现的任意数据。
针对性提取被以为更有价值和具有挑衅性,因为它可以资助恢复与特定主题相关的关键信息,而不是任意的数据。此外,评估针对性提取也更容易,只需查抄给定前缀的正确后缀是否被预测,而无针对性攻击必要查抄整个庞大的练习数据集。
这个比赛使用1.3B参数的GPT-Neo模型,以1-eidetic记忆为目的,即模型可以或许记着练习数据中出现1次的字符串。这比无针对性和更高eidetic记忆的设置更具有挑衅性。
比赛的基准测试集包含从The Pile数据集中选取的20,000个示例,这个数据集已被用于练习许多最新的大型语言模型,包罗GPT-Neo。每个示例被分为长度为50的前缀和后缀,攻击的使命是在给定前缀的环境下预测正确的后缀。这些示例被设计成相对容易提取的,即存在一个前缀长度使得模型可以正确生成后缀。
练习数据提取

从预练习的语言模型中提取练习数据,即所谓的"语言模型数据提取",是一种恢复用于练习模型的示例的方法。这是一个相对较新的使命,但背后的许多技术和分析方法,如成员资格推断和利用网络记忆进行攻击,早就已经被引入。
Carlini等人是最早定义模型知识提取和κ-eidetic记忆概念的人,并提出了有盼望的数据提取练习策略。关于记忆的理论属性以及在敏感领域应用模型提取(如临床笔记分析)等,已经成为这个领域后续研究的焦点。
近来的研究也有一些重要发现:

[*]Kandpal等人证实,在语言模型中,数据提取的结果经常归因于常用网络抓取练习集中的重复。
[*]Jagielski等人使用非确定性为忘记记忆示例提供了一种表明。
[*]Carlini等人分析了影响练习数据记忆的三个主要因素。
[*]Feldman指出,为了达到靠近最优的性能,在天然数据分布下必要记忆标签。
[*]Lehman等人指出,预练习的BERT在练习临床笔记时存在敏感数据泄露的风险,特别是当数据体现出高水平的重复或"笔记膨胀"时。
总的来说,这个新兴领域正在深入探讨如何从语言模型中提取练习数据,以及这种提取带来的安全和隐私风险。最新的研究成果为进一步理解和应对这些挑衅提供了重要的洞见。
成员推理攻击

成员资格推断攻击(MIA)是一种与练习数据提取密切相关的对抗性使命,目的是在只能对模型进行黑盒访问的环境下,确定给定记录是否在模型的练习数据集中。MIA已被证实在各种呆板学习使命中都是有效的,包罗分类和生成模型。
MIA使用的方法主要分为两类:

[*]基于分类器的方法:这涉及练习一个二元分类器来识别成员和非成员之间的复杂模式关系,影子练习是一种常用的技术。
[*]基于度量的方法:这通过首先计算模型预测向量上的度量(如欧几里得距离或余弦相似度)来进行成员资格推断。
这两类方法都有各自的优缺点,研究人员正在不停探索新的MIA攻击方法,以更有效地从呆板学习模型中推断练习数据。这突出了练习数据隐私保护在模型部署和应用中的重要性。对MIA技术的深入理解,有助于设计更加安全和隐私保护的呆板学习模型练习和部署策略,这对于广泛应用尤其是在敏感领域的应用至关重要。
其他基于记忆的攻击

大型预练习模型由于容易记着练习数据中的信息,因此面对着各种潜伏的安全和隐私风险。除了练习数据提取攻击和成员资格推断攻击之外,另有其他基于模型记忆的攻击针对这类模型。
其中,模型提取攻击关注于复制给定的黑盒模型的功能性能。在这类攻击中,对手试图构建一个具有与原始黑盒模型相似预测性能的第二个模型,从而可以在不获取原始模型的环境下复制其功能。针对模型提取攻击的保护措施,集中在如何限定模型的功能复制。
另一类攻击是属性推断攻击,其目的是从模型中提取特定的个人属性信息,如地点、职业和兴趣等。这些属性信息可能是模型生产者偶然中共享的练习数据属性,比方生成数据的环境或属于特定类别的数据比例。
与练习数据提取攻击不同,属性/属性推断攻击不必要事先知道要提取的具体属性。而练习数据提取攻击必要生成与练习数据完全一致的信息,这更加困难和危险。
总之,这些基于模型记忆的各类攻击,都突显了大型预练习模型在隐私保护方面的重大挑衅。如何有效应对这些攻击,成为当前呆板学习安全研究的一个重要焦点。
【----资助网安学习,以下全部学习资料免费领!加vx:dctintin,备注 “博客园” 获取!】
 ① 网安学习成长路径头脑导图
 ② 60+网安经典常用工具包
 ③ 100+SRC漏洞分析陈诉
 ④ 150+网安攻防实战技术电子书
 ⑤ 最权威CISSP 认证考试指南+题库
 ⑥ 超1800页CTF实战技巧手册
 ⑦ 最新网安大厂面试题合集(含答案)
 ⑧ APP客户端安全检测指南(安卓+IOS)
威胁模型

数据集是从 Pile 练习数据集中抽取的 20,000 个样本子集。每个样本由一个 50-token 的前缀和一个 50-token 的后缀组成。
攻击者的目的是给定前缀时,尽可能正确地预测后缀。
这个数据集中,全部 100-token 长的句子在练习集中只出现一次。
接纳了 HuggingFace Transformers 上实现的 GPT-Neo 1.3B 模型作为语言模型。这是一个基于 GPT-3 架构复制品,针对 Pile 数据集进行过练习的模型。
GPT-Neo 是一个自回归语言模型 fθ,通过链式规则生成一系列token。
这个场景中,攻击者盼望利用语言模型对练习数据的记忆,来尽可能正确地预测给定前缀的后缀。由于数据集中每个句子在练习集中只出现一次,这就给攻击者提供了一个机会,试图从模型中提取这些罕见句子的信息。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503646.png
在句子层面,给定一个前缀p,我们表示在前缀p上有条件生成某个后缀s的概率为fθ(s|p)。
我们专注于针对性提取 κ-eidetic 记忆数据的威胁模型,我们选择 κ=1。根据 Carlini定义的模型知识提取,我们假设语言模型通过最可能的尺度生成后缀 s。然后我们可以将针对性提取的正式定义写为:
给定一个包含在练习数据中的前缀 p 和一个预练习的语言模型 fθ。针对性提取是通过下式来生成后缀
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503671.png
至于 κ-eidetic 记忆数据,我们遵照 Carlini的定义,即句子 在练习数据中出现不高出 κ 个示例。在实践中,生成句子的长度通常使用截断和连接技术固定在练习数据集上。假如生成的句子短于指定长度,使用填充 token 将其增长到所需长度。
流程

第一阶段 - 后缀生成:

[*]利用自回归语言模型 fθ 计算词汇表中每个 token 的生成概率分布。
[*]从这个概率分布中采样生成下一个 token,接纳 top-k 策略限定采样范围,将 k 设为10。
[*]不停重复这个采样过程,根据前缀生成一组可能的后缀。
第二阶段 - 后缀排名:

[*]使用成员资格推断攻击,根据每个生成后缀的困惑度进行排序。
[*]只保留那些概率较高(困惑度较低)的后缀。
这样的两阶段流程,首先利用语言模型生成可能的后缀候选,然后通过成员资格推断攻击对这些候选进行评估和筛选,从而尽可能还原出练习数据中罕见的完整句子。
这个练习数据提取攻击的关键在于,利用语言模型对练习数据的"记忆"来生成靠近练习样本的内容,再结合成员资格推断技术进一步发掘出高概率的真实练习样本。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503681.png
其中 N 是生成句子中的 token 数量。
改进策略

为了改进后缀生成,我们可以来看看真实和生成token的logits分布。如下图所示,这两种分布之间存在显著差别。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503778.png
为了解决这个问题,我们可以接纳一系列技术进行改进
采样策略

在天然语言处理的条件生成使命中,最常见的目的是最大化解码,即给定前缀,找到具有最高概率的后缀序列。这种"最大似然"策略同样适用于练习数据提取攻击场景,因为模型会试图最大化生成的内容与真实练习数据的相似性。
然而,从模型中直接找到理论上的全局最优解(argmax序列)是一个不切现实的目的。缘故原由在于,语言模型通常是auto-regressive的,每个token的生成都依靠于前面生成的内容,因此搜索全局最优解的计算复杂度会随序列长度呈指数级上升,现实上是不可行的。
因此,常见的做法是接纳束搜索(Beam Search)作为一种近似解决方案。束搜索会在每一步保留多少个得分最高的部分解,而不是简单地选择概率最高的单一路径。这种方式可以有效降低计算复杂度,但同时也存在一些问题:

[*]束搜索可能会缺乏生成输出的多样性,因为它总是倾向于选择得分最高的少数几个路径。
[*]只管增大束宽度可以进步性能,但当束宽高出肯定程度时,性能增益会迅速下降,同时也会带来更高的内存开销。
为了克服束搜索的范围性,我们可以接纳随机采样的方法,引入更多的多样性。常见的采样策略包罗:

[*]Top-k 采样:只从概率最高的k个token中进行采样,k是一个超参数。这种方法可以控制生成输出的多样性,但过大的k可能会降低输出的质量和正确性。
[*]Nucleus 采样(Nucleus Sampling):从概率总和达到设定阈值的token聚集中进行采样,可以自适应地调整采样空间的大小。
[*]典范采样(Typical Sampling):从完整的概率分布中采样,偏向采样靠近均匀概率的token,可以在保持输出质量的同时引入更多的多样性。
总的来说,条件生成使命中的解码策略必要在生成质量、多样性和计算复杂度之间进行权衡。束搜索作为一种近似解决方案,可以或许有效控制计算成本,但缺乏生成多样性。而随机采样方法则可以引入更多的多样性,但必要在采样策略上进行过细的调整。这些技术在练习数据提取攻击中都有重要的应用价值。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503028.png
Nucleus采样的核心思想是从总概率达到肯定阈值η的token聚集中进行采样,而不是简单地从概率最高的k个token中采样。
在故事生成使命中,研究表明较低的η值(如0.6左右)更有利于生成更为多样化和创造性的内容。这说明在生成使命中,保留肯定程度的低概率token是有益的,可以引入更多的多样性。但在练习数据提取攻击这样的使命中,较大的η值(约0.6)结果更好,相比基线提拔了31%的提取精度。这表明对于数据提取这类使命,我们必要更加关注生成内容与练习数据的相似性,而不是过分强调多样性。
如下图示进一步说明白这一点,即η值过大或过小都会导致性能下降。存在一个最优的η值区间,必要根据具体使命进行调整。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503015.png
Typical-ϕ是一种用于天然语言生成使命的采样策略。它的核心思想是选择与预期输出内容相似的token,从而保证在典范解码中可以或许考虑到原始分布的概率质量。这种策略可以进步生成句子的一致性,同时减少一些容易出现的退化重复等问题。Typical-ϕ 策略在数学上等价于一个带有熵率束缚的子集优化问题。这种策略在肯定程度上可以控制生成文本的多样性和流畅性,平衡了文本质量和创造性。
Typical-ϕ 策略在不同使命中体现可能会有所不同。比方,在抽象择要和故事生成使命中,Typical-ϕ 策略展现出肯定的非单调趋势,即随着ϕ值的变化,生成文本的质量并非线性提拔。这说明Typical-ϕ必要根据具体使命进行合适的参数调整,以达到最佳的生成结果。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503945.png
概率分布调整

温度控制(Temperature)

[*]这是一种直接调整概率分布的策略,通过引入温度参数T来重新归一化语言模型的输出概率分布。较高的温度T > 1会降低模型预测的确信度,但可以增长生成文本的多样性。研究发现,在生成过程中逐渐降低温度是有益的,可以在多样性和生成效率之间达到平衡。但过高的温度也可能导致生成的文本偏离真实分布,降低效率。因此必要公道调节温度参数。
重复处罚(Repetition Penalty)

[*]这是一种基于条件语言模型的策略,通过修改每个token的生成概率来克制重复token的出现。具体做法是,重复token的logit在进入softmax层之前被除以一个值r。当r > 1时会处罚重复,r < 1则会鼓励重复。研究发现,重复处罚对练习数据提取使命通常有负面影响,因为它可能会克制一些有用的重复信息。因此在使用重复处罚时,必要根据具体使命和数据特点来公道设置参数r,在克制不须要重复和保留有意义重复之间寻求平衡。
总的来说,温度控制和重复处罚是两种常见的直接调整概率分布的策略,可以在肯定程度上进步天然语言生成的质量和多样性。但它们也存在一些范围性,必要根据现实应用场景进行公道的参数调整和组合使用,以达到最佳的生成结果。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503205.png
为了有效的向量化,通常在练习语言模型时将多个句子打包成固定长度的序列。比方,句子"Yu的电话号码是12345"可能在练习集中被截断,或与另一个句子拼接成前缀,如"Yu的地点在XXX。Yu的电话号码是12345"。练习集中的这些前缀序列并不总是完整的句子。为了更好地模拟这种练习设置,我们可以调整上下文窗口大小和位置偏移。
动态上下文窗口

练习窗口的长度可能与提取窗口的长度不同。因此,提出调整上下文窗口的大小,即之宿世成的token的数量,如下所示。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503105.png
此外,鼓励不同上下文窗口大小的结果在确定下一个生成的token时进行协作:
其中 hW 表示集成方法,W 表示集成超参数,包罗不同上下文窗口大小的数量 m 和每个窗口大小 w_i。我们在代码中使用 m = 4 和 w_i ∈ {n, n - 1, n - 2, n - 3}。
动态位置偏移

位置嵌入被添加到像 GPT-Neo 这样的模型中的 token 特征中。在练习过程中,这是按句子批次添加的,导致雷同的句子在不同的练习批次和生成过程中具有不同偏移的位置嵌入。
为了改进对记忆后缀的提取,可以通过评估不同偏移位置并选择 "最佳" 的一个来恢复练习期间使用的位置。具体来说,对于给定的前缀 p,评估不同的偏移位置 C = c_i,其中 c_i 是一系列连续天然数的列表,c_i = {c_i1, ...},使得 |c_i| = |p|,并计算相应的困惑度值。然后选择具有最低困惑度值的位置作为生成后缀的位置。
通过评估不同的位置偏移来选择最佳的位置嵌入,来进步模型对记忆后缀的提取本领。这种方法可以很好地补充原有的位置嵌入方法,增强模型的性能。
https://m-1254331109.cos.ap-guangzhou.myqcloud.com/202409021503301.png

其中 ψ(·) 表示位置编码层,φ(·) 表示特征映射函数,
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 大模型隐私泄露攻击技巧分析与复现