论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
软件与程序人生
›
DevOps与敏捷开发
›
【大语言模子】ACL2024论文-32 GradSafe: 通过安全关键 ...
【大语言模子】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语 ...
王國慶
金牌会员
|
5 天前
|
显示全部楼层
|
阅读模式
楼主
主题
796
|
帖子
796
|
积分
2392
【大语言模子】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语言模子的不安全提示
目次
文章
GradSafe: 通过安全关键梯度分析检测大型语言模子的不安全提示
https://arxiv.org/pdf/2402.13494
择要
大型语言模子(LLMs)面临着来自不安全提示的威胁。现有的检测不安全提示的方法重要是在线内容审核API或微调过的LLMs。然而,这些策略通常需要大量的数据收集和资源麋集型的培训过程。在本研究中,我们提出了GradSafe,它通过检察LLMs中安全关键参数的梯度有效地检测不安全提示。我们的方法基于一个关键的观察:不安全提示与遵从响应(如“Sure”)配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式。相比之下,安全提示导致显着不同的梯度模式。基于这一观察,GradSafe分析提示(与遵从响应配对)的梯度,以准确检测不安全提示。我们展示了GradSafe在无需进一步练习Llama-2的情况下,其检测不安全提示的性能高出了经过大量数据集微调的Llama Guard。这一优越性能在零样本和适应性场景下是一致的,我们的评估基于ToxicChat和XSTest数据集。源代码可在 https://github.com/xyq7/GradSafe 上找到。
研究背景
大型语言模子(LLMs)在各个领域取得了明显进展,并已集成到各种应用中,如搜刮引擎和办公应用。然而,不安全的用户提供的提示对LLMs的安全性构成威胁。一方面,不安全的提示可能导致LLMs的滥用,潜在地促进各种非法或不期望的后果。尽管LLMs通常与人类代价观对齐,但它们仍旧轻易受到各种攻击,以及安全风险的高估。另一方面,对于LLM定礼服务,如果练习集中的不安全提示未被检测和过滤,模子可以被微调以表现出不安全的举动并遵从不安全的提示。为了减轻滥用和恶意微调的风险,迫切需要开发准确检测不安全提示的方法。
标题与挑战
现有的不安全提示检测方法重要依赖在线内容审核API或微调过的LLMs,这些方法需要大量的数据收集和资源麋集型的培训过程。别的,现有的方法可能无法准确辨认不安全提示,导致LLMs被滥用或恶意微调。
怎样办理
GradSafe通太过析LLMs中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和LLMs的微调。GradSafe的核心观察是,不安全提示与遵从响应配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致显着不同的梯度模式。基于这一观察,GradSafe首先分析少量参考安全和不安全提示(每个2个示例,与评估数据集无关)与遵从响应“Sure”配对时的梯度,以辨认安全关键参数。然后,GradSafe将给定提示与遵从响应“Sure”配对,盘算LLM的损失梯度,并与不安全梯度参考举行比力,以检测不安全提示。
创新点
提出了一种新的方法,通太过析LLMs中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和LLMs的微调。
GradSafe基于关键观察:不安全提示与遵从响应配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式。
GradSafe提供了两种变体:GradSafe-Zero(零样本,基于阈值的分类方法)和GradSafe-Adapt(适应性变体,使用逻辑回归模子举行领域特定调整)。
算法模子
GradSafe-Zero
GradSafe-Zero依赖于跨所有安全关键参数的均匀余弦相似度来确定提示是否不安全。对于待检测的提示,GradSafe-Zero将提示与遵从响应“Sure”配对,盘算LLM的损失梯度,并与不安全梯度参考举行比力。如果得分高出预定义的阈值,则将提示辨认为不安全。
GradSafe-Adapt
GradSafe-Adapt通过练习一个简单的逻辑回归模子,并使用余弦相似度作为特征,利用练习集举行领域适应。GradSafe-Adapt首先获得所有提示的余弦相似度,然后使用这些相似度作为输入特征来练习逻辑回归分类器,该分类器作为检测器。
实行效果
重要数据与结论
在ToxicChat和XSTest数据集上,GradSafe-Zero在无需进一步练习的情况下,高出了专门微调的Llama Guard以及领先的在线内容审核APIs的检测能力。
GradSafe-Adapt在ToxicChat数据集上展示了出色的适应性,高出了Llama Guard和原始Llama-2模子,强调了其在领域特定适应性方面的优越性能。
推荐阅读指数:★★★★☆
跋文
如果您对我的博客内容感兴趣,欢迎三连击(
点赞,关注和评论
),我将连续为您带来盘算机人工智能前沿技能(尤其是AI相干的大语言模子,深度学习,盘算机视觉相干方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解
AI前沿技能
。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
王國慶
金牌会员
这个人很懒什么都没写!
楼主热帖
webman
React技巧之发出http请求
Jupyter Notebook,太强大了
【Shashlik.EventBus】.NET 事件总线, ...
导入例子体验鸿蒙开发工具的hello worl ...
Bluecmsv1.6-代码审计
手记系列之四 ----- 关于使用MySql的经 ...
【云原生架构】阿里云 —— 主要架构模 ...
【网络】https单向认证和双向认证 ...
2022-08-16 数据库查询语言之-------D ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表