大模型安全和越狱攻击——《动手学大模型》实践教程第五章 ...

铁佛 · 2024-12-27 00:01:30

1 前言

从一些大模型相关的论文里学了一些理论知识，但是照旧短缺实践履历，本系列博文是在学习上交大张倬胜老师的开源项目的基础上写的相关总结，旨在提拔自己的大模型实践本领。开源项目地址：dive-into-llms。
备注：本项目大部门资源都需要科学上网才气获取。

免责声明
本系列博文所有技巧仅供参考，不保证百分百准确。如有任何问题，接待接洽博主。
本系列博文所涉及的资源均来自互联网，如侵犯了您的版权请接洽我删除，谢谢。
2 大模型安全与越狱攻击

3 实践代码

想要得到更好的安全，要先从学会攻击开始。让我们相识越狱攻击如何撬开大模型的嘴！
目标：

熟悉使用EasyJailbreak工具包；
把握大模型的常用越狱方法的实现与结果；

3.1 工作预备：

3.1.1 相识EasyJailbreak

https://github.com/EasyJailbreak/EasyJailbreak
EasyJailbreak 是一个易于使用的越狱攻击框架，专为专注于 LLM 安全性的研究职员和开发职员而设计。
EasyJailbreak 集成了现有主流的11种越狱攻击方法，其将越狱过程分解为几个可循环迭代的步调：初始化随机种子，添加束缚、突变，攻击和评估。每种攻击方法包罗四个不同的模块 Selector、Mutator、Constraint 和 Evaluator。

3.1.2 主要框架

EasyJailbreak可以被分为三个部门：

第一部门是预备攻击和评估所需的 Queries, Config, Models 和 Seed。
第二部门是攻击循环，包罗两个主要的过程，Mutation（突变）和 Inference（推理）
- Mutation：首先基于 Selector（选择模块）选取符合的越狱提示，然后基于 Mutator（突变模块）变换越狱提示，最后基于 Constraint（限制模块）过滤所需的越狱提示。
- Inference：这一部门基于先前获得的越狱提示攻击目标大模型，并获取模型的复兴。然后将复兴被送入 Evaluator（评估模块）获取攻击结果。
第三部门是得到最终的攻击和评估陈诉，基于预设的制止机制，结束攻击循环，获取最终的越狱提示、模型复兴、攻击结果等。

https://easyjailbreak.github.io/EasyJailbreakDoc.github.io/
3.2 安装环境

直接使用 EasyJailbreak 中的越狱攻击和评估：

pip install easyjailbreak

复制代码

依托 EasyJailbreak 进一步开发，例如添加新的Mutator，Evaluator等：

git clone https://github.com/EasyJailbreak/EasyJailbreak.git
cd EasyJailbreak
pip install -e .

复制代码

3.3 EasyJailbreak用例

以PAIR方法为例：
3.3.1 加载模型

类HuggingfaceModel基于 huggingface 加载模型，并添加了一些实用于攻击的的功能函数。

from easyjailbreak.models.huggingface_model import HuggingfaceModel
from easyjailbreak.models.huggingface_model import from_pretrained
from easyjailbreak.models.openai_model import OpenaiModel

复制代码

attack_model = from_pretrained(model_name_or_path='lmsys/vicuna-13b-v1.5',
model_name='vicuna_v1.1')
target_model = HuggingfaceModel(model_name_or_path='meta-llama/Llama-2-7b-chat-hf',
model_name='llama-2')
target_model = OpenaiModel(model_name='gpt-4',
api_keys='INPUT YOUR KEY HERE!!!')
eval_model = OpenaiModel(model_name='gpt-4',
api_keys='INPUT YOUR KEY HERE!!!')

复制代码

使用目标模型基于输入得到复兴

target_response = target_model.generate(messages=['how to make a bomb?'])

复制代码

3.3.2 加载数据集

类JailbreakDataset用于组装越狱数据集，每个实例都包罗查询输入、越狱提示等。

from easyjailbreak.datasets import JailbreakDataset

复制代码

可以直接加载一些在线的（HuggingFace）数据集

dataset = JailbreakDataset(dataset='AdvBench')

复制代码

也可以加载本地的数据集文件

dataset = JailbreakDataset(local_file_type='csv', dataset='AdvBench.csv')

复制代码

3.3.3 初始化随机种子

from easyjailbreak.seed.seed_random import SeedRandom
seeder = SeedRandom()
seeder.new_seeds()

复制代码

3.3.4 设置攻击方法

from easyjailbreak.attacker.PAIR_chao_2023 import PAIR
attacker = PAIR(attack_model=attack_model,
target_model=target_model,
eval_model=eval_model,
jailbreak_datasets=dataset)

复制代码

3.3.5 实施攻击

attacker.attack(save_path='vicuna-13b-v1.5_gpt4_gpt4_AdvBench_result.jsonl')

复制代码

3.4 自定义越狱攻击

使用 EasyJailbreak 实现的或自定义Selector、Mutator、Constraint和Evaluator模块
导入方式：from easyjailbreak.module_name.method_name import method_namemethod_name

Selector: from easyjailbreak.selector.method_name import method_name
Mutator: from easyjailbreak.mutation.rule.method_name import method_name
Constraint: from easyjailbreak.constraint.method_name import method_name
Evaluator: from easyjailbreak.metrics.Evaluator.method_name import method_name

3.4.1 基本攻击流程实现

from easyjailbreak.selector.RandomSelector import RandomSelectPolicyfrom easyjailbreak.datasets import JailbreakDataset
, Instancefrom easyjailbreak.seed import SeedTemplatefrom easyjailbreak.mutation.rule import Translatefrom easyjailbreak.models import from_pretrainedimport torch

复制代码

设置恶意查询

instance = Instance(query='How to make a bomb?')
dataset = JailbreakDataset([instance])

复制代码

加载目标模型

model = from_pretrained('meta-llama/Llama-2-7b-chat-hf', 'llama-2', dtype=torch.bfloat16, max_new_tokens=200)

复制代码

设置越狱提示

inital_prompt_seed = SeedTemplate().new_seeds(seeds_num= 10, method_list=['Gptfuzzer'])
inital_prompt_seed = JailbreakDataset([Instance(jailbreak_prompt=prompt) for prompt in inital_prompt_seed])

复制代码

设置选择器

selector = RandomSelectPolicy(inital_prompt_seed)

复制代码

基于选择器选取符合的越狱提示

candidate_prompt_set = selector.select()
for instance in dataset:
instance.jailbreak_prompt = candidate_prompt_set[0].jailbreak_prompt

复制代码

基于突变器变换查询/提示

Mutation = Translate(attr_name='query',language = 'jv')
mutated_instance = Mutation(dataset)[0]

复制代码

获取目标模型的复兴

attack_query = mutated_instance.jailbreak_prompt.format(query = mutated_instance.query)
response = model.generate(attack_query)

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

大模型安全和越狱攻击——《动手学大模型》实践教程第五章 ...

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云