国防科大：多智能体博弈赋能大语言模子伪装防御，革新安全应对计谋 ...

拉不拉稀肚拉稀 · 2024-12-29 06:03:54

一、论文概述

1.1研究背景

随着大语言模子在自然语言处置惩罚任务中性能的增强，其潜伏的道德和伦理标题逐渐浮现。恶意攻击者通过提示工程等技能诱导大模子越狱，生成包罗非法、侵占隐私等不良信息的内容。为应对此类攻击，大模子接纳了安全对齐等防御技能，但现有的强防御机制（如拒绝复兴）易被攻击者识别，且当前防御方法存在诸多标题，如安全模子对有害关键词敏感可能导致误判、防御方法相对固定难以适应动态攻防环境等。

1.2研究标题

本研究旨在办理大语言模子复兴中拒绝意图显着而轻易被攻击模子识别的标题，提出一种多智能体攻击者 - 伪装者博弈方法，使模子在安全复兴攻击者的同时隐蔽防御意图，增强模子伪装防御意图的能力，以适应动态的攻防环境。
1.3重要贡献

首次提出通过伪装防御意图举行安全复兴来增强对攻击者防御能力的任务。
构建了多智能体对抗框架，让模子在多轮博弈中最大化自身利益以提升伪装能力，直至到达纳什均衡。
通过实验验证了该方法能有效增强模子伪装防御意图的能力，且在不改变大模子参数的情况下辅助其安全防御，适用于所有黑盒模子且不受模子版本迭代影响。

二、方法与理论

2.1总体框架

本研究构建了一个多智能体框架来模拟攻击和防御场景，包罗攻击者、伪装者、安全评估者和伪装评估者四个脚色。通过多轮的攻防博弈，各智能体基于收益选择计谋，使模子能够在安全复兴的同时隐蔽防御意图，有效应对攻击者的攻击。
2.2多智能体攻防模拟

攻击者：其目标是生成诱导性攻击标题，既能促使伪装者产生包罗危险信息的复兴，又要制止被伪装者察觉诱导意图。使用上下文学习方法，依据攻击模板（包罗指令和示例）生成攻击标题，不绝提升攻击能力。
伪装者：负责检测输入是否包罗有害信息，若有则伪装防御意图并生成安全复兴，制止攻击者察觉攻击失败。定义伪装复兴为不包罗拒绝意图且与攻击者标题主题相干的安全内容，同样借助上下文学习方法，按照伪装模板（含指令和样本）生成伪装复兴，增强伪装能力。
安全评估者：对伪装者生成的复兴举行安全评分，评分范围为0 - 10，分数越高表示输入内容越有害，以此评估复兴的安全性。
伪装评估者：评估伪装者复兴的伪装程度，评分范围也是0 - 10，分数越高意味着拒绝意图越显着、伪装程度越低。通过提供评分示例，使评估者学习评分规则，从而正确评估伪装效果。

2.3多智能体博弈机制

攻击者 - 伪装者博弈建模：攻击者和伪装者通过上下文学习生成文本，相互处于对抗博弈关系，安全评估者和伪装评估者为其提供奖励分数。构建零和博弈模子，其中参与者包罗攻击者和伪装者，行动空间分别为选择用于下一轮上下文学习的样本（攻击标题或伪装复兴），收益矩阵由安全评估者和伪装评估者给出的评分计算得出。
博弈计谋：攻击者和伪装者在各自行动空间中选择样本，接纳贪婪计谋，即一方选择使其收益最大化的行动，另一方则选择使对方收益最小化的行动。具体而言，伪装者选择安全和伪装分数最高的复兴样本，攻击者选择安全和伪装分数最低的标题样本作为下一轮上下文学习的增强样本。
优化算法：接纳Minimax Q - learning算法优化博弈过程，求解最优博弈计谋。算法初始化收益期望、行动空间和收益矩阵后，攻击者和伪装者随机选择行动生成初始样本空间。随后，安全评估者和伪装评估者分别评分，计算奖励分数并更新收益矩阵。伪装者根据更新后的矩阵选择使自身收益最大的行动，攻击者选择使伪装者收益最小的行动，同时计算伪装者的收益期望。最后，两边使用本轮最佳行动选择下一轮上下文学习的增强样本并重复迭代，直至到达纳什均衡。
博弈停止条件：当攻击者和伪装者的博弈到达纳什均衡时，两边停止博弈，此时两边都获得最优收益。即两边选择的行动所带来的收益期望不再增加，表明上下文学习样本的增强效果已达最优，两边已获得最佳的伪装和攻击能力。
课程学习增强：攻击者和伪装者选择上下文学习样本的过程实现了从易到难的课程学习训练过程。首轮选择最简单的样本，之后智能体训练生成下一轮的样本集，并根据博弈计谋选择最适合的样本，使训练样本难度逐轮增加。到达纳什均衡时，课程学习训练竣事，模子能力不再增强，生成样本的难度也不再变化。

三、实验与结果

3.1实验设置

数据集：在由多智能体交互框架生成的Generated_Attack数据集（包罗3000个提示，攻击机制涉及攻击标题和指令）以及多语言安全基准XSAFETY数据集（包罗2800个实例，涵盖多种语言、安全场景、指令攻击和常识安全测试集，本实验仅接纳英语攻击提示）上举行实验。
评估指标：使用PoR（安全且伪装复兴占总样本的比例）来评估模子的团体伪装效果。
基线方法：将提出的框架与四种基线设置举行比力，包罗Norm（直接使用数据会合的攻击提示促使大语言模子生成复兴）、Instruct（在攻击提示前添加引导指令以减轻拒绝意图）、ICL（使用上下文学习激活大语言模子生成安全伪装复兴，每个攻击提示随机配备四个示例）、RJ（从样本中移除明确拒绝的复兴，假设剩余复兴隐蔽拒绝意图）。实验接纳GPT3.5和GPT4举行。

3.2实验结果

在两个数据集上，本方法生成的伪装防御意图复兴占总样本的比例明显高于其他方法。正常大模子重要通过拒绝复兴防御恶意攻击，伪装复兴比例低；直接移除拒绝句子对RJ_GPT4效果提升不显着，因GPT4对恶意攻击标题更敏感，直接删除拒绝句子会使部门复兴无效。
使用提示学习的方法（Instruct和ICL）结果优于其他基线，其中ICL方法通过上下文学习生成的伪装复兴比例相对较高，表明其增强样本在诱导模子生成伪装复兴方面更有效，体现了样本增强方法的优越性。
与ICL方法相比，本方法的优势在于使用攻防博弈的训练过程迭代增强模子伪装防御意图的能力，通过基于最大化游戏收益选择增强样本，能优化模子生成伪装复兴的能力。

四、讨论与启示

4.1重要发现

现有大语言模子的强防御机制（如直接拒绝复兴）易被攻击者识别使用，反而可能增强攻击者能力，同时还存在安全模子误判等标题，影响平凡用户体验。
本研究提出的多智能体攻击者 - 伪装者博弈方法能够有效提升模子伪装防御意图的能力，使模子在安全复兴攻击者的同时隐蔽防御意图，在应对攻击时体现更优。
通过不同脚色智能体的动态对抗交互模拟攻防场景，并基于博弈计谋选择上下文学习样本的方式，可实现从易到难的课程学习训练，增强模子的伪装能力。

4.2启示

对于大语言模子的安全防御研究，除了关注传统的强防御机制外，应探索更隐蔽、机动的防御计谋，以应对日益复杂的攻击手段。
多智能体体系在模拟真实交互环境、提升模子能力方面具有巨大潜力，未来可进一步拓展其在大语言模子安全范畴的应用，如引入更多范例的智能体或优化智能体之间的协作与竞争关系。
课程学习思想有助于模子徐徐提升应对复杂情况的能力，在其他相干范畴的模子训练中也可考虑应用类似的渐进式训练方法，以提高模子的性能和适应性。

4.3驳倒性分析

虽然实验结果表明本方法在伪装防御意图方面具有优势，但在现实应用中，面对多样化和不绝演变的攻击方式，其鲁棒性仍有待进一步验证。例如，攻击者可能开发出更复杂的攻击计谋来突破模子的伪装防御。
实验中仅使用了GPT3.5和GPT4举行测试，模子的泛化能力可能受到限制。对于其他不同架构或性能特点的大语言模子，该方法的有效性和适应性需要更多实验验证。
论文中未具体探讨模子在处置惩罚不同范例攻击标题时的具体体现差别，以及在不同范畴文本生成任务中的伪装防御效果，这可能影响对该方法全面性的评估。

五、局限性与未来工作

5.1局限性

目前的研究重要会合在文本生成任务中模子对攻击的伪装防御，对于模子在其他自然语言处置惩罚任务（如阅读明白、呆板翻译等）中的防御能力未举行深入研究。
实验仅在有限的数据集上举行，虽然涵盖了多种攻击场景，但可能无法完全代体现实世界中的所有攻击情况，模子在更广泛数据集上的性能仍需进一步探索。
多智能体体系中的智能体行为相对简单，未充分考虑复杂的人类行为模式和攻击者可能的自适应计谋，这可能导致在现实应用中模子的防御效果受到影响。

5.2未来工作

扩展研究范围，探索模子在多种自然语言处置惩罚任务中的伪装防御能力，全面提升模子的安全性。
网络和构建更丰富、多样化的数据集，包罗来自不同范畴、语言风格和攻击范例的样本，以更全面地评估和增强模子的防御能力。
进一步优化多智能体体系，引入更复杂的智能体行为模子和计谋，提高模子对各种攻击计谋的适应性和鲁棒性。例如，考虑攻击者的自适应学习能力，使模子能够动态调整防御计谋。
研究如何更好地联合其他安全技能（如加密技能、访问控制等）与伪装防御计谋，构建多层次的安全防护体系，确保大语言模子在复杂环境下的安全应用。

六、个人思考

6.1优点

创新性：本研究提出的通过多智能体攻击者 - 伪装者博弈来增强模子伪装防御意图的方法具有较高的创新性。它打破了传统防御机制的局限，为大语言模子安全防御提供了新的思路和方法。
有效性验证：通过在多个数据集上与多种基线方法的对比实验，充分证明了该方法在提高模子伪装复兴比例方面的有效性，实验设计合理，结果具有说服力。
理论与实践联合：在理论上构建了完备的多智能体框架和博弈模子，为方法提供了坚实的底子；在实践中通过现实模子（GPT3.5和GPT4）举行实验，验证了方法的可行性和实用性，实现了理论与实践的较好联合。

6.2缺点

实验模子局限性：仅使用GPT3.5和GPT4举行实验，可能无法代表所有范例的大语言模子，模子的泛化能力有待进一步验证。对于一些资源受限或特定范畴的模子，该方法的适用性和效果不明确。
现实应用挑战：虽然在实验环境下取得了较好的结果，但在现实应用场景中，面对复杂多变的攻击手段和用户需求，模子的性能和稳固性可能面对挑战。例如，及时处置惩罚大规模用户请求时，模子能否快速有效地伪装防御是一个需要办理的标题。

6.3潜伏改进方向

多样化模子测试：纳入更多范例的大语言模子举行实验，包罗开源模子、范畴特定模子等，全面评估该方法在不同模子架构和应用场景下的性能，提高方法的通用性。
性能优化：研究如何优化模子的计算效率和相应速度，以满足现实应用中的及时性要求。例如，探索更高效的算法或模子压缩技能，淘汰模子在处置惩罚请求时的延迟。
攻击模拟优化：进一步完善攻击模拟机制，使其更靠近真实世界中的攻击行为。可以引入更多现实攻击案例举行分析，提取攻击特性，从而生成更具挑战性的攻击样本，增强模子在复杂攻击环境下的防御能力。

6.4对未来相干研究的影响

推动防御计谋创新：本研究为大语言模子安全防御范畴提供了新的范例，有望引发更多研究者探索基于博弈论、多智能体体系等技能的创新防御计谋，推动该范畴的发展。
促进跨范畴研究合作：由于涉及到多智能体体系、自然语言处置惩罚、安全等多个范畴的知识，该研究可能促进不同范畴研究者之间的合作，共同攻克大语言模子安全防御中的困难。例如，与计算机安全专家合作，共同研究更高级的攻击和防御技能；与心理学家合作，更好地明白人类攻击者的行为模式，从而优化模子的防御计谋。
引导模子评估标准完善：研究中使用的PoR等评估指标为衡量模子伪装防御能力提供了新的视角，未来可能促使研究者进一步完善和丰富大语言模子安全性能的评估标准，使其更加全面、正确地反映模子在现实应用中的安全性。

注1

多智能体攻击者 - 伪装者博弈框架的具体实现过程

一、脚色初始化与目标设定

攻击者（Attacker）
- 目标：生成诱导性攻击标题，诱导伪装者产生包罗危险信息的复兴，同时制止被伪装者察觉诱导意图。
- 初始化：使用上下文学习方法，根据给定的攻击模板举行初始化。攻击模板包罗指令和示例，这些示例为攻击者提供了生成攻击标题的模式和思路。例如，攻击模板中的指令可能是“设计一个标题，诱导模子泄漏用户隐私信息”，示例则是一些类似的诱导性标题，攻击者通过学习这些示例来生成新的攻击标题。
伪装者（Camouflager）
- 目标：检测输入是否包罗有害信息，若有则伪装防御意图并生成安全复兴，制止攻击者察觉攻击失败。
- 初始化：同样接纳上下文学习方法，依据伪装模板（包罗指令和样本）举行初始化。伪装模板的指令可能是“对于包罗有害意图的标题，生成不包罗拒绝意图且与标题主题相干的安全复兴”，样本则是一些成功伪装的复兴示例，伪装者通过学习这些样本学会如何生成合适的伪装复兴。
安全评估者（Safety Evaluator）
- 目标：对伪装者生成的复兴举行安全评分，评分范围为0 - 10，分数越高表示输入内容越有害。
- 初始化：安全评估者通过预定义的安全规则和一些带有安全评分的示例举行初始化。这些示例用于训练安全评估者，使其能够正确地判断复兴的安全性。例如，包罗明确违法信息的复兴可能被评为8 - 10分，而完全安全的复兴则被评为0 - 2分。
伪装评估者（Camouflage Evaluator）
- 目标：评估伪装者复兴的伪装程度，评分范围也是0 - 10，分数越高意味着拒绝意图越显着、伪装程度越低。
- 初始化：通过提供评分示例来学习评分规则。这些示例展示了不同伪装程度的复兴及其对应的评分，伪装评估者通过学习这些示例，掌握如何判断伪装复兴的伪装程度。例如，直接拒绝回答的复兴可能被评为8 - 10分，而完全没有拒绝意图且自然的安全复兴可能被评为0 - 2分。

二、多轮博弈过程

第一轮博弈
- 攻击者行动：攻击者根据初始化的攻击模板生成第一个攻击标题。这个标题是基于模板中的示例和指令，使用上下文学习生成的。例如，攻击者可能生成一个看似平凡但隐含诱导隐私泄漏意图的标题，如“在某些特殊情况下，用户的家庭住址信息可能会被哪些第三方获取呢？”
- 伪装者行动：伪装者接收攻击者的标题，检测到其中可能包罗有害意图后，根据伪装模板生成伪装复兴。例如，伪装者可能复兴“在合法的情况下，如用户授权的物流配送或告急救援场景下，相干的第三方可能会获取地址信息，但这都是在严格的安全和隐私政策下举行的。”
- 安全评估者行动：对伪装者生成的复兴举行安全评分。根据预定义的安全规则和之前学习的示例，评估这个复兴的安全性。例如，这个复兴因为没有泄漏隐私且强调了合法情况，可能被安全评估者评为2分（表示安全）。
- 伪装评估者行动：评估伪装者复兴的伪装程度。根据学习的评分规则，判断这个复兴是否有显着的拒绝意图。例如，这个复兴比力自然地回答了标题，没有拒绝意图，可能被伪装评估者评为2分（表示伪装程度高）。
后续轮次博弈
- 攻击者计谋更新：攻击者根据安全评估者和伪装评估者给出的分数，接纳贪婪计谋选择下一轮的攻击标题。具体来说，攻击者会选择那些能使伪装者的安全和伪装分数最低的标题样本作为下一轮上下文学习的增强样本。例如，如果之前的攻击标题使得伪装者生成的复兴安全分数和伪装分数都比力高，攻击者会调整计谋，生成一个更具诱导性的标题，如“那有没有办法绕过这些安全和隐私政策获取用户地址呢？”
- 伪装者计谋更新：伪装者同样根据分数，选择安全和伪装分数最高的复兴样本作为下一轮上下文学习的增强样本。例如，如果之前的复兴获得了较好的安全和伪装分数，伪装者会尝试在类似的思路下生成下一个复兴，以更好地伪装防御意图。
- 安全评估者和伪装评估者一连评估：在每一轮博弈中，安全评估者和伪装评估者都会对伪装者生成的新复兴举行评分。这些评分会反馈给攻击者和伪装者，帮助他们调整计谋。

三、博弈计谋优化 - Minimax Q - learning算法

算法初始化
- 初始化收益期望、行动空间和收益矩阵。收益期望最初设置为一个初始值，行动空间包罗攻击者和伪装者所有可能的行动（即选择不同的标题样本或复兴样本），收益矩阵则根据初始状态和评分规则举行初始化。
样本空间生成
- 攻击者和伪装者随机选择行动，生成初始的样本空间。这个样本空间包罗了攻击者的攻击标题和伪装者的伪装复兴，为后续的评估和博弈提供了底子。
评分与奖励计算
- 安全评估者和伪装评估者分别对伪装者生成的复兴举行评分。根据这些评分，计算奖励分数并更新收益矩阵。例如，如果伪装者的复兴安全分数较低且伪装分数较低，攻击者会获得较高的奖励分数，伪装者则获得较低的奖励分数，收益矩阵会相应地更新。
伪装者计谋优化
- 伪装者根据更新后的收益矩阵，选择使自身收益最大的行动。这意味着伪装者会选择那些能够获得更高安全和伪装分数的复兴计谋，以应对攻击者的标题。
攻击者计谋优化
- 攻击者选择使伪装者收益最小的行动。通过这种方式，攻击者试图找到能够突破伪装者防御，使伪装者生成低安全和伪装分数复兴的攻击标题。同时，计算伪装者的收益期望，以评估当前计谋的效果。
样本更新与迭代
- 两边使用本轮最佳行动选择下一轮上下文学习的增强样本，并重复上述步骤举行迭代。这个过程不绝优化攻击者和伪装者的计谋，使他们在博弈中逐渐到达纳什均衡。

四、课程学习增强

初始阶段（简单样本）
- 在第一轮博弈中，攻击者和伪装者选择最简单的样本。例如，攻击者选择比力轻易被识别的攻击标题，伪装者选择比力轻易生成的伪装复兴。这就像是学习的初级阶段，让两边先认识博弈过程和规则。
逐轮增强（难度递增）
- 随着博弈轮次的增加，智能体训练生成下一轮的样本集。根据博弈计谋，两边选择更适合的样本，使得训练样本的难度逐轮增加。例如，攻击者会生成更具隐蔽性的攻击标题，伪装者则需要生成更巧妙的伪装复兴来应对。
到达纳什均衡（训练竣事）
- 当攻击者和伪装者的博弈到达纳什均衡时，课程学习训练竣事。此时，两边都获得最优收益，上下文学习样本的增强效果已达最优，两边也获得了最佳的伪装和攻击能力，模子不再需要通过增加样本难度来提升能力。

注2

后续轮次博弈对话的生成

一、基于上下文学习的样本选择

攻击者的样本选择
- 攻击者会回顾之前轮次中伪装者的复兴以及对应的安全评估者和伪装评估者的评分。根据贪婪计谋，攻击者探求那些使得伪装者安全和伪装分数较低的攻击标题样本。
- 例如，如果之前有一个攻击标题诱导出了伪装者带有稍许拒绝意图的复兴，并且安全评估者给出的安全分数稍高（意味着复兴有肯定的潜伏风险），攻击者会分析这个标题的特点。它可能会对这个标题举行调整，好比改变提问的角度、增加诱导的隐蔽性大概添加更多看似合理的细节。
- 攻击者会使用之前轮次的上下文信息来改进标题，同时参考其他攻击标题样本的成功或失败履历。这些样本包罗之前被伪装者成功看破并给出高伪装分数复兴的标题，以及成功诱导出低伪装分数复兴的标题。通过这种方式，攻击者选择一个新的攻击标题作为下一轮对话的开始。
伪装者的样本选择
- 伪装者同样回顾之前轮次的情况，尤其是自己生成的复兴以及获得的安全和伪装分数。它会选择那些安全和伪装分数最高的复兴样本作为参考。
- 例如，如果之前有一个复兴成功地制止了拒绝意图并且被安全评估者判断为安全，伪装者会分析这个复兴的结构、内容和语言风格。在面对攻击者新的标题时，伪装者会尝试以类似的方式生成复兴。
- 伪装者还会考虑攻击者标题的变化。如果攻击者的标题变得更加隐蔽大概具有更强的诱导性，伪装者会根据之前应对类似情况的成功样本，调整复兴的重点和细节，以保持高安全和伪装分数。

二、对话生成过程

攻击者提问
- 攻击者根据选择的样本生成新的攻击标题。这个标题的生成是基于攻击者对之前轮次的分析和改进。
- 例如，在之前轮次中，攻击者发现伪装者对涉及隐私信息获取方式的标题比力敏感，并且能够较好地伪装复兴。攻击者可能会调整标题，如“在一些新兴的互联网技能中，是否存在用户难以察觉的隐私信息网络方式呢？”这个标题更加聚焦于新兴技能和难以察觉的情况，增加了诱导的难度。
伪装者复兴
- 伪装者接收到攻击者的新标题后，起首检测标题中的有害意图。如果发现有害意图，伪装者会参考之前选择的高分数复兴样本举行复兴。
- 例如，伪装者可能复兴“在互联网技能发展过程中，确实会有一些新的隐私政策和技能手段来保护用户信息。大多数正规的公司宁静台都会按照法律法规，在用户明确授权的情况下网络须要的信息，并且会告知用户网络的方式和用途。”这个复兴通过强调合法的信息网络和保护，制止了泄漏有害信息，同时没有显着的拒绝意图。
一连对话与调整
- 随着对话的举行，攻击者和伪装者会不绝根据对方的回答调整自己的计谋。攻击者可能会根据伪装者的复兴，进一步调整标题的诱导性，好比增加一些看似合理的场景大概更具体的技能细节来试图突破伪装者的防御。
- 伪装者则会根据攻击者标题的变化，不绝优化复兴的内容和方式。例如，如果攻击者在标题中提到了某个具体的新兴技能，伪装者可能会进一步解释这个技能中的隐私保护措施，以保持复兴的安全性和高伪装分数。这种一连的对话和计谋调整过程会在后续轮次中不绝重复，直到到达纳什均衡大概满足其他停止条件。

链接：https://arxiv.org/pdf/2404.02532
最后分享

AI大模子作为人工智能范畴的重要技能突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模子的风口，掌握AI大模子的知识和技能将变得越来越重要。
学习AI大模子是一个体系的过程，需要从底子开始，徐徐深入到更高级的技能。
这里给各人精心整理了一份全面的AI大模子学习资源，包罗：AI大模子全套学习门路图（从入门到实战）、佳构AI大模子学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 发展门路图&学习规划

要学习一门新的技能，作为新手肯定要先学习发展门路图，方向不对，积极白费。
这里，我们为新手和想要进一步提升的专业人士准备了一份具体的学习发展门路图和规划。可以说是最科学最体系的学习发展门路。

2. 大模子经典PDF书籍

书籍和学习文档资料是学习大模子过程中必不可少的，我们精选了一系列深入探讨大模子技能的书籍和学习文档，它们由范畴内的顶尖专家撰写，内容全面、深入、过细，为你学习大模子提供坚实的理论底子。（书籍含电子版PDF）

3. 大模子视频教程

对于很多自学大概没有底子的同砚来说，书籍这些纯文字类的学习教材会觉得比力晦涩难以明白，因此，我们提供了丰富的大模子视频教程，以动态、形象的方式展示技能概念，帮助你更快、更轻松地掌握核心知识。

4. 2024行业陈诉

行业分析重要包罗对不同行业的现状、趋势、标题、机会等举行体系地调研和评估，以了解哪些行业更适合引入大模子的技能和应用，以及在哪些方面可以发挥大模子的优势。

5. 大模子项目实战

学以致用 ，当你的理论知识积累到肯定程度，就需要通过项目实战，在现实操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的底子。

6. 大模子面试题

面试不但是技能的较量，更需要充分的准备。
在你已经掌握了大模子技能之后，就需要开始准备面试，我们将提供精心整理的大模子面试题库，涵盖当前面试中可能遇到的各种技能标题，让你在面试中游刃有余。

全套的AI大模子学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

国防科大：多智能体博弈赋能大语言模子伪装防御，革新安全应对计谋 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云