LLM 安全培训和越狱

打印 上一主题 下一主题

主题 946|帖子 946|积分 2838

Meta、Google、OpenAI、Anthropic 等在公开发布之前都投入了大量精力来查察其模子的输出,并设置安全使用的护栏。尽管他们付出了努力,但越狱仍然会发生,即使是最新版本也是如此。根据 [1],GPT4 很轻易受到基于说服的攻击,究竟上比旧版 ChatGPT 更轻易受到攻击。


新的和更复杂的模子带来了新的和尚未发现的弊端,这意味着安全训练协议必要跟上 LLM 不断增强的能力(特别提到 Claude,它似乎保持着强劲势头)。以是我试着看看最近的一些越狱方法,以及让 Claude 2 脱颖而出的安全训练过程的差别。
我的目标不是将每个人都酿成 LLM 黑客(盼望如今大多数问题都已经得到解决,这些论文中的效果在发表之前已经与感兴趣的各方共享),而是了解成功攻击背后的主要概念和当前安全培训程序的范围性。
LLM越狱方法

如今最常见、最体系的越狱本领可以分为以下几种:
1. 目标相辩论的快速工程

LLM 经过几轮训练,每轮都有差别的目标:基础训练偏重于下一个标记预测,微调偏重于使命(遵照指令、文本择要、问答等),安全

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

耶耶耶耶耶

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表