【大语言模子】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语 ...

王國慶 · 5 天前

【大语言模子】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语言模子的不安全提示

文章

GradSafe: 通过安全关键梯度分析检测大型语言模子的不安全提示

https://arxiv.org/pdf/2402.13494
择要

大型语言模子（LLMs）面临着来自不安全提示的威胁。现有的检测不安全提示的方法重要是在线内容审核API或微调过的LLMs。然而，这些策略通常需要大量的数据收集和资源麋集型的培训过程。在本研究中，我们提出了GradSafe，它通过检察LLMs中安全关键参数的梯度有效地检测不安全提示。我们的方法基于一个关键的观察：不安全提示与遵从响应（如“Sure”）配对时，LLM的损失梯度在某些安全关键参数上表现出相似的模式。相比之下，安全提示导致显着不同的梯度模式。基于这一观察，GradSafe分析提示（与遵从响应配对）的梯度，以准确检测不安全提示。我们展示了GradSafe在无需进一步练习Llama-2的情况下，其检测不安全提示的性能高出了经过大量数据集微调的Llama Guard。这一优越性能在零样本和适应性场景下是一致的，我们的评估基于ToxicChat和XSTest数据集。源代码可在 https://github.com/xyq7/GradSafe 上找到。
研究背景

大型语言模子（LLMs）在各个领域取得了明显进展，并已集成到各种应用中，如搜刮引擎和办公应用。然而，不安全的用户提供的提示对LLMs的安全性构成威胁。一方面，不安全的提示可能导致LLMs的滥用，潜在地促进各种非法或不期望的后果。尽管LLMs通常与人类代价观对齐，但它们仍旧轻易受到各种攻击，以及安全风险的高估。另一方面，对于LLM定礼服务，如果练习集中的不安全提示未被检测和过滤，模子可以被微调以表现出不安全的举动并遵从不安全的提示。为了减轻滥用和恶意微调的风险，迫切需要开发准确检测不安全提示的方法。

标题与挑战

现有的不安全提示检测方法重要依赖在线内容审核API或微调过的LLMs，这些方法需要大量的数据收集和资源麋集型的培训过程。别的，现有的方法可能无法准确辨认不安全提示，导致LLMs被滥用或恶意微调。
怎样办理

GradSafe通太过析LLMs中安全关键参数的梯度来检测不安全提示，无需额外的数据收集和LLMs的微调。GradSafe的核心观察是，不安全提示与遵从响应配对时，LLM的损失梯度在某些安全关键参数上表现出相似的模式，而安全提示则导致显着不同的梯度模式。基于这一观察，GradSafe首先分析少量参考安全和不安全提示（每个2个示例，与评估数据集无关）与遵从响应“Sure”配对时的梯度，以辨认安全关键参数。然后，GradSafe将给定提示与遵从响应“Sure”配对，盘算LLM的损失梯度，并与不安全梯度参考举行比力，以检测不安全提示。

创新点

提出了一种新的方法，通太过析LLMs中安全关键参数的梯度来检测不安全提示，无需额外的数据收集和LLMs的微调。
GradSafe基于关键观察：不安全提示与遵从响应配对时，LLM的损失梯度在某些安全关键参数上表现出相似的模式。
GradSafe提供了两种变体：GradSafe-Zero（零样本，基于阈值的分类方法）和GradSafe-Adapt（适应性变体，使用逻辑回归模子举行领域特定调整）。

算法模子

GradSafe-Zero

GradSafe-Zero依赖于跨所有安全关键参数的均匀余弦相似度来确定提示是否不安全。对于待检测的提示，GradSafe-Zero将提示与遵从响应“Sure”配对，盘算LLM的损失梯度，并与不安全梯度参考举行比力。如果得分高出预定义的阈值，则将提示辨认为不安全。
GradSafe-Adapt

GradSafe-Adapt通过练习一个简单的逻辑回归模子，并使用余弦相似度作为特征，利用练习集举行领域适应。GradSafe-Adapt首先获得所有提示的余弦相似度，然后使用这些相似度作为输入特征来练习逻辑回归分类器，该分类器作为检测器。
实行效果

重要数据与结论

在ToxicChat和XSTest数据集上，GradSafe-Zero在无需进一步练习的情况下，高出了专门微调的Llama Guard以及领先的在线内容审核APIs的检测能力。
GradSafe-Adapt在ToxicChat数据集上展示了出色的适应性，高出了Llama Guard和原始Llama-2模子，强调了其在领域特定适应性方面的优越性能。

推荐阅读指数：★★★★☆

跋文

如果您对我的博客内容感兴趣，欢迎三连击(点赞，关注和评论)，我将连续为您带来盘算机人工智能前沿技能(尤其是AI相干的大语言模子，深度学习，盘算机视觉相干方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技能。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【大语言模子】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云