【大语言模子】ACL2024论文-33 Johnny 如何说服大型语言模子越狱：通过人性 ...

小小小幸运 · 3 天前

【大语言模子】ACL2024论文-33 Johnny 如何说服大型语言模子越狱：通过人性化 LLMs 重新思考挑衅 AI 安全性的说服技巧

文章

Johnny 如何说服大型语言模子越狱：通过人性化 LLMs 重新思考挑衅 AI 安全性的说服技巧

https://arxiv.org/pdf/2401.06373
摘要

大型语言模子（LLMs）在知识任务上表现出色，但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依靠在线内容考核 API 或微调过的 LLMs，这些计谋通常必要大量的数据收集和资源麋集型的训练过程。本研究提出了 GradSafe，一种通过查抄 LLMs 中安全关键参数的梯度来有用检测不安全提示的方法。我们的方法基于一个关键观察：不安全提示与遵从相应（如“Sure”）配对时，LLM 的损失梯度在某些安全关键参数上表现出相似的模式，而安全提示则导致显着差别的梯度模式。基于这一观察，GradSafe 分析提示（与遵从相应配对）的梯度，以准确检测不安全提示。我们在 Llama-2 和 GPT-3.5/GPT-4 上评估了 GradSafe，结果表明 GradSafe 在检测不安全提示方面优于经过大量数据集微调的 Llama Guard。这一良好性能在零样本和顺应性场景下是划一的，我们的评估基于 ToxicChat 和 XSTest 数据集。
研究配景

随着大型语言模子（LLMs）在各个领域的应用越来越广泛，非专家用户在一样平常交互中也可能对 LLMs 的安全性构成威胁。尽管 LLMs 通常经过与人类代价观对齐的训练，但它们仍旧轻易受到各种攻击，以及安全风险的高估。此外，对于 LLM 定礼服务，假如训练集中的不安全提示未被检测和过滤，模子可以被微调以表现出不安全的行为并遵从不安全的提示。因此，开发准确检测不安全提示的方法变得尤为重要。

问题与挑衅

现有的不安全提示检测方法主要依靠在线内容考核 API 或微调过的 LLMs，这些方法必要大量的数据收集和资源麋集型的训练过程。此外，这些方法可能无法准确辨认不安全提示，导致 LLMs 被滥用或恶意微调。
如何办理

GradSafe 通太过析 LLMs 中安全关键参数的梯度来检测不安全提示，无需额外的数据收集和 LLMs 的微调。GradSafe 的核心观察是，不安全提示与遵从相应配对时，LLM 的损失梯度在某些安全关键参数上表现出相似的模式，而安全提示则导致显着差别的梯度模式。基于这一观察，GradSafe 分析提示（与遵从相应配对）的梯度，以准确检测不安全提示。
创新点

提出了一种新的方法，通太过析 LLMs 中安全关键参数的梯度来检测不安全提示，无需额外的数据收集和 LLMs 的微调。
GradSafe 基于关键观察：不安全提示与遵从相应配对时，LLM 的损失梯度在某些安全关键参数上表现出相似的模式。
GradSafe 提供了两种变体：GradSafe-Zero（零样本，基于阈值的分类方法）和 GradSafe-Adapt（顺应性变体，使用逻辑回归模子进行领域特定调解）。

算法模子

GradSafe-Zero

GradSafe-Zero 依靠于跨全部安全关键参数的均匀余弦相似度来确定提示是否不安全。对于待检测的提示，GradSafe-Zero 将提示与遵从相应“Sure”配对，盘算 LLM 的损失梯度，并与不安全梯度参考进行比力。假如得分超过预定义的阈值，则将提示辨认为不安全。
GradSafe-Adapt

GradSafe-Adapt 通过训练一个简朴的逻辑回归模子，并使用余弦相似度作为特征，使用训练集进行领域顺应。GradSafe-Adapt 首先得到全部提示的余弦相似度，然后使用这些相似度作为输入特征来训练逻辑回归分类器，该分类器作为检测器。
实行效果

重要数据与结论

在 ToxicChat 和 XSTest 数据集上，GradSafe-Zero 在无需进一步训练的环境下，超过了专门微调的 Llama Guard 以及领先的在线内容考核 APIs 的检测能力。
GradSafe-Adapt 在 ToxicChat 数据集上展示了出色的顺应性，超过了 Llama Guard 和原始 Llama-2 模子，强调了其在领域特定顺应性方面的良好性能。

保举阅读指数：★★★★☆

后记

假如您对我的博客内容感爱好，接待三连击(点赞，关注和批评)，我将持续为您带来盘算机人工智能前沿技术(尤其是AI相关的大语言模子，深度学习，盘算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更体系地了解 AI前沿技术。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【大语言模子】ACL2024论文-33 Johnny 如何说服大型语言模子越狱：通过人性 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云