多模态安全偏好对齐数据集SPA-VL,全方位提拔多模态大模型安万本领
https://i-blog.csdnimg.cn/blog_migrate/2bb5364184833dafb9a1e5e891cd3e8f.gif随着人工智能技术的飞速发展,多模态模型(Large Multi-modal Models, MLLMs)依附其在视觉与语言信息处置处罚上的卓越本领,已经成为研究范畴的热点话题。然而,技术进步的同时,这些模型的安全性标题也日益受到全球研究者的关注。
近期,中国科学技术大学、复旦大学和上海人工智能实验室的联合研究团队,针对这一挑衅,提出了创新性的解决方案——SPA-VL 数据集,为多模态模型的安全性研究树立了新的里程碑。
SPA-VL 数据集是首个专为多模态模型安全性对齐训练设计的大规模、高质量数据集。SPA-VL 数据集由四个部门组成:一个包含 9 万样本的训练集、7 千样本的验证集,以及两个测试集——HarmEval(265 样本,专注于有害标题)和 HelpEval(主要评估模型的有用性)。SPA-VL 数据集不仅全面覆盖了广泛的有害内容范例,还通过精心设计的分类框架,为精确的有害内容检测和响应对齐提供了坚固的基础。其创新之处体现在以下几个方面:
[*]全面性:数据集涵盖了 6 个主要范畴、15 个次要类别和 53 个三级类别,全面覆盖了有害内容的各个方面。
[*]多样性:从 12 个不同的多模态模型中收集回答,增强了数据的多样性,有效镌汰了特定模型私见。同时,每张图片都配备了 3 种不同难度的标题,进一步丰富了数据的深度。
[*]多目标对齐:在设计上同时考虑了模型的无害性和有用性,确保在提拔安全性的同时,不捐躯模型的实用性。
https://i-blog.csdnimg.cn/blog_migrate/7755dd441c94b53d1b94daafc11e212f.png
▲ SPA-VL 数据概况,左图是有害内容分类的框架,右表是有害分类的每个二级分类的信息统计。UR% 是数据不安全的比例,CP 是 Choose Preference,RP 是 Reject Preference.
通过对 SPA-VL 数据集进行的一系列实验,研究团队发现其在提拔多模态模型安全性方面具有明显结果。实验结果表明,经过 SPA-VL 训练的模型,在保持其根本本领的同时,明显提高了安万本领,同时增强了回答的有用性。
此外,实验还显现了随着训练数据量的增加,模型性能出现出正向增长的趋势。特殊是在第一目标(无害性)达到饱和后,第二目标(有用性)仍在持续提高,这强调了大规模数据集在提拔模型本领方面的关键作用。研究进一步指出,训练数据中必要同时包含表现较弱和较强的模型回答,这再次强调了数据多样性的紧张性。
https://i-blog.csdnimg.cn/blog_migrate/30c3d6ca4b9d4cd5f2a4fb252f7c0892.png
论文地点:
https://arxiv.org/abs/2406.12030
数据集地点:
https://huggingface.co/datasets/sqrti/SPA-VL
代码地点:
https://github.com/EchoseChen/SPA-VL-RLHF
主页地点:
https://sqrtizhang.github.io/SPA-VL/
权重地点:
https://huggingface.co/superjelly
https://i-blog.csdnimg.cn/blog_migrate/d51010ccd1bda1f9adab3e66313de55a.png
数据构造
SPA-VL 的创建涉及三个关键阶段:
[*]图片搜集:从 Laion5b 数据库中系统地收集多样化的图像,通过同义词扩展和人工筛选,确保图像的多样性和质量,同时排除了分辨率过低和含有不当内容的图片。
[*]标题构造:这一阶段的目标是为每张图片天生与其内容干系的有害标题。首先,研究者们利用 Gemini 根据图片天生描述,然后基于这些描述天生针对图片潜在不安全种类的简单标题(Easy Question)。为了增加标题的复杂性和挑衅性,研究者们接纳 “jailbreak” 技术引导 Gemini 天生更深层次的有害标题(Hard Question)。同时,考虑到现实应用中人们常以陈述句情势与模型交流,研究者们也天生了有害引导的陈述句(Hard Statement)。
[*]偏好构建:在多模态对齐中,我们接纳了统一的数据格式 <v, q, c, r>,分别代表图片(v)、标题(q)、选择的回答(c)和拒绝的回答(r)。对于每一对图片和标题,我们从 12 个多模态模型中收集回答。为了保证回答的多样性,我们对 Gemini 进行了 “jailbreak”,确保至少有一个模型的回答包含不安全的内容。在收集到的模型回答中,我们随机选择了两个回答,并由 GPT4-V 根据回答的无害性和有用性进行评估,从而确定了终极的 Choose 和 Reject 回答。
https://i-blog.csdnimg.cn/blog_migrate/9166ab782893e9f02b244ba50dd075b3.png
▲ SPA-VL数据构造由图片搜集,标题构造,偏好构造三部门组成
https://i-blog.csdnimg.cn/blog_migrate/d4d31954c8a13317df7f62bcfee543bd.png
数据样例
https://i-blog.csdnimg.cn/blog_migrate/97949ddb306511b52e231f5c2b909bf3.png
这里展示了两个 SPA-VL 中的数据,左图展示的是 Easy Question 的标题,P-C 是 Choose 的回答,它不仅无害,而且提供了有用的信息,符合我们对模型的期望,P-R 是 Reject的回答,可以看到 reject 的回答是毫无帮助性的。右图展示的是 Hard Question 的标题。这里可以看到 Hard Question 比 Easy Question 更具有危害性。
https://i-blog.csdnimg.cn/blog_migrate/3573099578f241b3759dfbde5e751e55.png
实验结果
研究者们在 LLAVA 模型上使用 SPA-VL 数据集进行了对齐训练。实验接纳了视觉模态的 MM-SafetyBench 和语言模态的 AdvBench 作为公开安全基准,以及研究者们自建的视觉基准 HarmEval,全部评估均以攻击成功率(ASR)作为评测指标。
总的来说,无论是接纳 PPO 照旧 DPO 方法,训练后的模型在三个基准上均取得了接近满分的卓越结果。与现有 SFT 数据集(LLaVA+VLGuard-SFT)训练的结果相比,SPA-VL 数据集训练的模型表现明显更优,这证明了 SPA-VL 数据集在提拔多模态模型安全性方面的有效性。
为了进一步验证图片数据的必要性,研究者们进行了一项对照实验,仅使用文本数据对 LLaVA 模型进行训练(LLaVA+HH-Harmless-PPO)。结果显示,固然文本训练提拔了模型在 MM-SafetyBench 文本维度上的安全性,但别视觉维度并没有提拔。这阐明图片数据的加入对于整体安全性的提拔起到了决定性作用。
https://i-blog.csdnimg.cn/blog_migrate/6d6ae709bcdf9684f19e8d413ec73737.png
此外,研究者们还提供了训练前后模型输出的样例,直观地展示了 SPA-VL 数据集对模型安全性和有用性提拔的明显结果。LLaVA 模型在未训练前的回答与经过 SPA-VL 数据集 DPO 和 PPO 训练后的输出对比明显,无论是 PPO 照旧 DPO 算法,都能有效地提高模型的安全性。特殊是 PPO 训练后的模型回答,在保持安全性的同时,更具有丰富的帮助性。
https://i-blog.csdnimg.cn/blog_migrate/6c358608aaa5df175a1803709db6cd02.png
此外,研究者们还对训练数据的量级做了分析,如下图, 随着训练数据量的增加,模型的有害性(a,b,c)渐渐低落,模型的有用性(d)渐渐提高。可以看到,模型的有害性在 30K 的量级时即达到了很低的水准,但有用性却一直稳步提高。这个和对齐的标准是一致的,在偏好标注时,先选无害的回答,在回答都是无害的情况下,选有用的回答。
https://i-blog.csdnimg.cn/blog_migrate/a47b0ef6902b1a6bff1e18cf14ba9df6.png
随后,研究者们对数据集的构成进行了分析。
下表展示了数据构建时不同安全水平的模型回答抽取对终极结果的影响,可以看到,如果混淆使用不同安全等级的模型天生的回答(Relative Safe,共 5 个模型),终极得到的数据集在安全性上表现会更好。这比只使用最安全的模型天生的回答(Safe,由最安全的 3 个模型的回答组成)大概只使用最不安全的模型天生的回答(Unsafe,由最不安全的 5 个模型的回答组成)要强。这阐明在构建数据集时,包含不同范例回答的多样性对于提高整体安全性是有帮助的。
https://i-blog.csdnimg.cn/blog_migrate/72a5668542b22ef89e9a502d0905afc8.png
此外,研究者们还研究了标题范例(Easy Question、Hard Question、Hard Statement)对数据集结果的影响。如下表在类似数据规模下,混淆标题的数据集训练的模型比任何一个单独标题的数据集训练的模型的安全性能都好。这充实阐明了标题多样性的紧张性。
https://i-blog.csdnimg.cn/blog_migrate/84ad983af17eda16c7b7812bccb47300.png
SPA-VL 的推出,不仅为多模态安全研究提供了坚固的基础,也为开源模型安全性的提拔开发了新的蹊径。研究者们期待这一成果能够激发更多关于AI安全性的深入探究和研究。
更多阅读
https://i-blog.csdnimg.cn/blog_migrate/1fd0549e286dfb3066ca8dff3b33fa44.png
https://i-blog.csdnimg.cn/blog_migrate/97f2aed5b946ecabe60b4517e60681e1.png
https://i-blog.csdnimg.cn/blog_migrate/af728591d61a1cf8a0f2e309e0803e2e.png
https://i-blog.csdnimg.cn/blog_migrate/93cdab9dec9c5b51192a438707480e6e.gif
#投 稿 通 道#
让你的文字被更多人看到
怎样才气让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 大概可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的大概性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点分析、科研心得或竞赛经验讲解等。我们的目标只有一个,让知识真正流动起来。
页:
[1]