论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
物联网
›
物联网
›
【大语言模子】ACL2024论文-33 Johnny 如何说服大型语言 ...
【大语言模子】ACL2024论文-33 Johnny 如何说服大型语言模子越狱:通过人性 ...
小小小幸运
金牌会员
|
3 天前
|
显示全部楼层
|
阅读模式
楼主
主题
729
|
帖子
729
|
积分
2187
【大语言模子】ACL2024论文-33 Johnny 如何说服大型语言模子越狱:通过人性化 LLMs 重新思考挑衅 AI 安全性的说服技巧
目录
文章
Johnny 如何说服大型语言模子越狱:通过人性化 LLMs 重新思考挑衅 AI 安全性的说服技巧
https://arxiv.org/pdf/2401.06373
摘要
大型语言模子(LLMs)在知识任务上表现出色,但它们也面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要依靠在线内容考核 API 或微调过的 LLMs,这些计谋通常必要大量的数据收集和资源麋集型的训练过程。本研究提出了 GradSafe,一种通过查抄 LLMs 中安全关键参数的梯度来有用检测不安全提示的方法。我们的方法基于一个关键观察:不安全提示与遵从相应(如“Sure”)配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致显着差别的梯度模式。基于这一观察,GradSafe 分析提示(与遵从相应配对)的梯度,以准确检测不安全提示。我们在 Llama-2 和 GPT-3.5/GPT-4 上评估了 GradSafe,结果表明 GradSafe 在检测不安全提示方面优于经过大量数据集微调的 Llama Guard。这一良好性能在零样本和顺应性场景下是划一的,我们的评估基于 ToxicChat 和 XSTest 数据集。
研究配景
随着大型语言模子(LLMs)在各个领域的应用越来越广泛,非专家用户在一样平常交互中也可能对 LLMs 的安全性构成威胁。尽管 LLMs 通常经过与人类代价观对齐的训练,但它们仍旧轻易受到各种攻击,以及安全风险的高估。此外,对于 LLM 定礼服务,假如训练集中的不安全提示未被检测和过滤,模子可以被微调以表现出不安全的行为并遵从不安全的提示。因此,开发准确检测不安全提示的方法变得尤为重要。
问题与挑衅
现有的不安全提示检测方法主要依靠在线内容考核 API 或微调过的 LLMs,这些方法必要大量的数据收集和资源麋集型的训练过程。此外,这些方法可能无法准确辨认不安全提示,导致 LLMs 被滥用或恶意微调。
如何办理
GradSafe 通太过析 LLMs 中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和 LLMs 的微调。GradSafe 的核心观察是,不安全提示与遵从相应配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致显着差别的梯度模式。基于这一观察,GradSafe 分析提示(与遵从相应配对)的梯度,以准确检测不安全提示。
创新点
提出了一种新的方法,通太过析 LLMs 中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和 LLMs 的微调。
GradSafe 基于关键观察:不安全提示与遵从相应配对时,LLM 的损失梯度在某些安全关键参数上表现出相似的模式。
GradSafe 提供了两种变体:GradSafe-Zero(零样本,基于阈值的分类方法)和 GradSafe-Adapt(顺应性变体,使用逻辑回归模子进行领域特定调解)。
算法模子
GradSafe-Zero
GradSafe-Zero 依靠于跨全部安全关键参数的均匀余弦相似度来确定提示是否不安全。对于待检测的提示,GradSafe-Zero 将提示与遵从相应“Sure”配对,盘算 LLM 的损失梯度,并与不安全梯度参考进行比力。假如得分超过预定义的阈值,则将提示辨认为不安全。
GradSafe-Adapt
GradSafe-Adapt 通过训练一个简朴的逻辑回归模子,并使用余弦相似度作为特征,使用训练集进行领域顺应。GradSafe-Adapt 首先得到全部提示的余弦相似度,然后使用这些相似度作为输入特征来训练逻辑回归分类器,该分类器作为检测器。
实行效果
重要数据与结论
在 ToxicChat 和 XSTest 数据集上,GradSafe-Zero 在无需进一步训练的环境下,超过了专门微调的 Llama Guard 以及领先的在线内容考核 APIs 的检测能力。
GradSafe-Adapt 在 ToxicChat 数据集上展示了出色的顺应性,超过了 Llama Guard 和原始 Llama-2 模子,强调了其在领域特定顺应性方面的良好性能。
保举阅读指数:★★★★☆
后记
假如您对我的博客内容感爱好,接待三连击(
点赞,关注和批评
),我将持续为您带来盘算机人工智能前沿技术(尤其是AI相关的大语言模子,深度学习,盘算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更体系地了解
AI前沿技术
。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
小小小幸运
金牌会员
这个人很懒什么都没写!
楼主热帖
收藏:再谈软件定义存储发展及现状 ...
5.2 基于ROP漏洞挖掘与利用
软件项目管理 7.4.5.进度计划编排-敏捷 ...
【.NET】控制台应用程序的各种交互玩法 ...
权限提升(1)
Ubuntu如何安装Mysql+启用远程连接[完 ...
唯一/普通索引的选择?change buffer ...
【Visual Leak Detector】QT 中 VLD 输 ...
每日算法之左旋转字符串
Django笔记三十八之发送邮件
标签云
挺好的
服务器
快速回复
返回顶部
返回列表