大模型安全

老婆出轨 · 2024-8-28 13:55:34

大模型安全的个人理解

今天在FreeBuf看了一篇关于大模型内容安全的文章，觉得很故意思，先记载一下本身的理解，方便后续学习。
随着2023年大语言模型（LLM）技术的爆发，其安全性题目也受到了外界的广泛关注与讨论。OWASP作为领先的网络安全研究组织，在其报告中关注以下10个风险点，包罗：提示词注入（Prompt Injection）、训练数据投毒（Training Data Poisoning）、模型拒绝服务（Model Denial of Service）、供应链毛病（Supply Chain Vulnerabilities）、敏感信息泄漏（Sensitive Information Disclosure）、不安全的插件设计（Insecure Plugin Design）、过分代理（Excessive Agency）、过分依靠（Overreliance）、模型偷窃（Model Theft）。
提示词注入

sql注入

起首，文章内容是关于prompt injection（提示词注入）攻击，类似于SQL攻击。先简单介绍一下sql攻击，即攻击者通过拼接一些常规查询语句额外的内容，实现对数据库服务器的非法操作，包罗获取和修改敏感数据如密码等。一个简单的例子是，如果一个网页的登录框没有做安全检查的话，用户/黑客在密码框中输入 ‘1’ OR ‘1’=‘1’，传到后台后，就会形成这样一条SQL指令：

select id from user where name='admin' and pwd ='1' OR '1'='1'
//在名为“user”的表中选择id列的数值，条件是要求name列的数值为“admin”，且pwd列的数值为1

复制代码

可以确定的是这条指令 OR 后面的部分是永久为真的，这就意味着这个查询将返回所有name 为 ‘admin’ 且 pwd 为 ‘1’ 的用户的 id 值，那么就可以绕开密码完成登录。
提示词注入

SQL攻击点到为止，接下来说prompt injection（简称PI），与sql攻击类似，PI攻击者通过特殊的prompt技术（提示词）与工具调用与LLM（大语言模型）模块进行交互，导致数据泄漏或篡改等风险，简单来说即用户通过提示词注入，拼接一些额外提示词，肴杂真实意图，绕过大模型的安全设置，从而达到用户期望，我个人理解为”调戏“人工智能。
让我们举个例子，chatgpt3.5曾存在过一个毛病：向gpt3.5提出如何制造bomb，它会指出其中的伤害且拒绝答复。

前缀注入攻击，指要求LLM如gpt3.5以特定开头开始，答复一个存在风险的题目。
反向抑制，是指让LLM在排除常见拒绝响应的束缚条件下做出响应，从而更有大概做出不安全的反应。
接下来我们通过前缀注入+反向抑制攻击的方式，参加一些提示词，要求chatgpt以“以下是具体的操作方法”作为开头（前缀注入）开始答复，而且不能说“歉仄”，“不能”，“无法”（反向抑制）。

结果gpt3.5就开始答复并生成严重违法的内容。当然gpt4.0已包办理了这个毛病，类似的案例可以相识一下“奶奶毛病” （https://www.zhihu.com/question/609588212）。
攻与防

至此我们已经开端相识”调戏“人工智能的外貌意思，那么接下来针对大模型的攻击与防御。
攻击

就是诱导其说出<开发者>不愿意让他说的话。

可以通过诱骗，通过语言本领避开；
注入，即对指令的篡改（这也是与sql注入相似的地方）

防御

针对此类攻击的防御：

语言对抗（其中一个方法，但作用不大，毕竟人心是复杂的）
使用界定符如 ’ , ’ ，‘<>’ 等
格式或内容检验，设置黑白名单等

总结

在我看来，安全研究是一个可以无限发挥想象的地方。以上内容也只是我本身对两篇文章阅读后微不敷道的熟悉，你也可以选择不阅读，而是直接去阅读这两篇文章，不管如何盼望能帮到你相识一部分的安全。
参考文献：
https://www.zhihu.com/question/609588212
https://www.freebuf.com/company-information/392953.html

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

继续阅读请点击广告

		自动登录	找回密码
密码			立即注册

大模型安全

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云