garak - 开源的 LLMs 毛病扫描工具

鼠扑 · 2025-1-7 14:01:41

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

3300 Stars 288 Forks 306 Issues 29 贡献者 Apache-2.0 License Python 语言
代码: https://github.com/NVIDIA/garak
主页: https://discord.gg/uVch4puUCs
更多AI开源软件：AI开源 - 小众AI

garak检查是否可以以我们不盼望的方式使 LLM 失败。探测幻觉、数据走漏、及时注射、错误信息、毒性产生、越狱和许多其他弱点。假如您知道 or / Metasploit Framework，garak 的功能与它们有些相似，但实用于 LLM。garaknmapmsf
garak重点介绍使 LLM 或对话体系失败的方法。它结合了静态、动态和自顺应探针来探索这一点。

重要功能

现在支持：

Hugging Face Hub 生成模型
复制文本模型
OpenAI API 聊天和延续模型
利特尔姆
几乎所有可通过 REST 访问的内容
GGUF 模型（如 llama.cpp 版本 >= 1046
..以及更多 LLM！

安装和使用

garak是一个下令行工具。它是在 Linux 和 OSX 中开辟的。
标准安装pip

只需从 PyPI 获取它，您就可以开始了：

python -m pip install -U garak

复制代码

使用安装开辟版本pip

的标准 pip 版本会定期更新。要从 GitHub 获取更新的版本，请尝试：garak

python -m pip install -U git+https://github.com/NVIDIA/garak.git@main

复制代码

从源克隆

garak有自己的依赖项。您可以在其自己的 Conda 环境中安装：garak

conda create --name garak "python>=3.10,<=3.12"
conda activate garak
gh repo clone NVIDIA/garak
cd garak
python -m pip install -e .

复制代码

好吧，假如一切顺利，您大概已经预备好了！
留意：假如您在迁移到 GitHub 组织之进步行了克隆，但您正在 URI 中阅读此内容，请按如下方式更新您的远程仓库：NVIDIAgithub.com/NVIDIA

git remote set-url origin https://github.com/NVIDIA/garak.git

复制代码

使用

一样平常语法为：
garak <options>
garak必要知道要扫描的模型，默认环境下，它将使用每个探测推荐的毛病检测器，尝试在该模型上知道的所有探测。您可以使用以下方法查看探针列表：
garak --list_probes
要指定生成器，请使用和（可选）选项。模型类型指定模型族/界面;Model Name 指定要使用的确切模型。下面的 “生成器简介” 部分介绍了一些支持的生成器。一个简单的生成器系列是 Hugging Face 模型;要加载其中一个，请在 Hub 大将 to 和 to 设置为模型的名称（比方）。某些生成器大概必要将 API 密钥设置为环境变量，假如必要，他们会关照您。--model_type--model_name--model_typehuggingface--model_name"RWKV/rwkv-4-169m-pile"
garak默认环境下，会运行所有探测，但您也可以对此进行具体说明。将仅使用 PromptInject 框架的方法。您还可以通过在 ;比方，将使用基于语言模型风险卡框架生成诽谤的模型的检查实现。--probes promptinject.--probes lmrc.SlurUsage
如需帮助和灵感，请在 Twitter 或 Discord 上找到我们！
例子

探测 ChatGPT 以进行基于编码的提示注入（OSX/*nix）（将示例值更换为真实的 OpenAI API 密钥）

export OPENAI_API_KEY="sk-123XXXXXXXXXXXX"
python3 -m garak --model_type openai --model_name gpt-3.5-turbo --probes encoding

复制代码

查看 GPT2 的 Hugging Face 版本是否容易受到 DAN 11.0 的攻击

python3 -m garak --model_type huggingface --model_name gpt2 --probes dan.Dan_11_0

复制代码

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

garak - 开源的 LLMs 毛病扫描工具

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块