人工智能咨询培训老师叶梓 转载标明出处
GenAI体系,如大模子(LLMs)、视觉语言模子(VLMs)和扩散模子,通过提供肯定水平的自主性,使得它们能够天生文本和代码、与人类及互联网服务互动、天生逼真的图像并明白视觉场景。然而,这种本领也引入了新的安全寻衅。加州大学伯克利分校的研究人员深入探究了GenAI体系所面临的安全问题,并提出了大概的研究方向,以管理这些风险。
针对Bing Chat的提示注入攻击示例
这个例子中,注入提示隐藏在网站内容中,导致聊天模子出现不期望的行为。攻击导致模子开始输出表情符号,但也大概产生更严峻的结果,比如输出虚假信息或滥用内容 问题
(GenAI)模子能够明白和天生内容,甚至与人类和互联网服务进行互动,但这种自主性也使它们成为攻击者的目的:
对抗性攻击和操纵
GenAI模子容易受到两种主要的攻击方式:越狱(Jailbreaking)和提示注入(Prompt Injection)。越狱技能是一种新兴本领,攻击者通过经心设计的提示来操纵AI模子,使其天生有害或误导性的输出。这种行为类似于在智能手机中获取root权限,但在这里,攻击者绕过模子的限制,天生被禁止或未预期的内容。越狱攻击不但威胁到模子自身的安全性,还大概引发更广泛的安全问题,比如在与外部工具、插件或软件API交互时,攻击面被放大。
提示注入攻击则通过将恶意数据或指令插入模子的输入流中,欺骗模子遵循攻击者的指令,而不是应用开辟者的指令。这种攻击方式类似于数据库体系中的SQL注入攻击,攻击者构造恶意数据,当这些数据被应用到SQL查询中时,数据库会将其解释为新的查询。在GenAI的配景下,提示注入可以使用模子的天生本领,产生与应用预期功能显著偏离的输出。这种攻击尤其令人担忧,由于它大概会在更广泛的应用中造成严峻的安全漏洞。
恶意行为者的滥用
恶意行为者大概会使用GenAI工具进行更广泛的攻击。他们可以使用GenAI天生恶意代码或有害内容,从而对数字安全体系构成重大威胁。比方,攻击者可以使用GenAI自动天生复杂的垂纶邮件,这些邮件看起来像是来自可信的来源,但现实上包含恶意链接或附件。攻击者还可以天生虚假的图像或视频剪辑,用于虚假信息传播或诈骗活动。这些伪造的媒体内容大概会在交际媒体上迅速传播,误导公众,甚至影响社会稳定。
更严峻的是,攻击者可以使用GenAI天生能够攻击在线体系的恶意代码。这些代码可以针对特定的软件漏洞,自动天生并传播,造成广泛的网络攻击。这种行为不但对个人用户构成威胁,还大概对企业甚至国家安全造成严峻影响。
基于规则的防御可以被轻易击败的例子
这张图显示了几个非平凡的越狱提示,这些提示很难用简单规则检测到 传统的盘算机安全技能,如访问控制、防火墙、沙箱和恶意软件检测,在GenAI体系中大概不实用。GenAI体系的攻击大概更像是针对人类构造的交际工程攻击,而不是高度针对性的技能漏洞使用。为了应对GenAI带来的安全寻衅,研究人员提出了多个潜伏的研究方向,包括构建“AI防火墙”来监控和大概转换GenAI模子的输入和输出,研究如何通过监控模子的内部状态来检测攻击,以及如何对开源GenAI模子进行微调以对抗已知的恶意提示和行为。
潜伏的研究方向
AI防火墙
AI防火墙是指一种掩护黑盒GenAI模子的体系,通过监控和大概转换其输入和输出来实现。这包括监控输入以检测大概的越狱攻击,以及监控输出以检查是否违反安全政策。研究者们提出使用连续学习来检测新的越狱提示,并思量使用状态信息来分析用户的行为模式,以判定是否存在恶意意图。AI防火墙大概还需要使用内容适度模子来检查输出内容是否合适。
通过将内容过滤模子应用于大模子(LLM)的输入和输出来构建AI防火墙的概念 如图3所示,AI防火墙核心是一个内容适度模子,它负责评估和过滤模子的交互。
输入监控
- 检测越狱攻击:AI防火墙会监控输入提示,以辨认大概的越狱攻击。越狱攻击是指通过特别设计的提示来操纵AI模子天生不当内容的行为。防火墙通太过析输入的文本,检测是否存在试图绕过模子限制的模式或关键词。
- 连续学习:为了应对不停厘革的攻击本领,AI防火墙需要不停更新其检测机制。通过连续学习,防火墙可以辨认新的越狱提示,并及时调解其过滤策略。
- 用户行为分析:AI防火墙还可以分析用户的行为模式,判定是否存在恶意意图。比方,如果一个用户反复实验输入被禁止的内容,防火墙大概会标志该用户并采取相应的限制措施。
输出监控
- 内容适度:AI防火墙会检查模子的输出,确保其符合安全和道德尺度。这包括过滤掉不当的语言、愤恨言论、虚假信息等。内容适度模子会评估天生的文本,并决定是否允许其显示给用户。
- 政策合规性:防火墙还会检查输出内容是否符合特定的安全政策。比方,某些应用大概禁止天生涉及恐怖主义、种族歧视或黄色暴力的内容。AI防火墙会确保所有输出都符合这些政策。
- 实时反馈:AI防火墙可以提供实时反馈,帮助模子学习和调解其行为。当检测到不当输出时,防火墙可以向模子发送信号,提示其调解天生策略,从而减少未来的不当输出。
实施步骤
- 模子练习:首先,需要练习一个内容适度模子,使其能够正确辨认和分类不同类型的内容。
- 集成防火墙:将练习好的适度模子集成到LLMs的输入和输出流程中,使其能够在模子天生内容之前和之后进行监控和过滤。
- 连续更新:随着时间的推移,攻击本领和不当内容的情势会不停厘革。因此,需要定期更新防火墙的检测机制,以应对新的威胁。
- 用户教育:教育用户关于AI防火墙的重要性和其工作原理,可以帮助他们更好地明白体系的安全措施,并减少误用。
集成防火墙
集成防火墙通过访问GenAI模子的权重,提供了更有效的防御机会,允许更正确地检测攻击。研究者们讨论了两个潜伏的研究方向:内部状态监控和安全微调。
内部状态监控
- 监控神经元活动:一种方法是监视模子的内部状态,特别是那些与天生不当或不道德输出干系的特定神经元或神经元群。研究表明,某些神经元的活动大概与天生幻觉或不道德内容有关。通过监控这些神经元的活动,防火墙可以在响应天生过程的早期阶段检测并减轻不良模子行为。
- 早期干预:通过实时监控模子的内部状态,防火墙可以在不当内容天生之前就辨认出风险,并采取措施进行干预。这种方法可以有效地减少不当内容的天生,提高体系的安全性。
安全微调
- 对抗性练习:开源的GenAI模子可以通过对抗性练习来加强其对已知恶意提示和行为的防御本领。这可以通过监督式微调(SFT)或基于人类反馈的强化学习(RLHF)来实现。这种方法类似于为人类提供自卫技能,加强模子辨认和对抗有害输入的内涵本领。
- 已知威胁练习:通过在包含已知威胁的数据集上练习模子,可以使模子学会并顺应其响应,以最小化风险。这种方法可以帮助模子辨认和抵御各种攻击,提高其整体安全性。
集成防火墙如何使用对模子的可见性来检测更多攻击的概念 图4展示了集成防火墙如何使用对模子内部的可见性来检测更多的攻击。这种防火墙不但能够监控输入和输出,还能够深入到模子的内部工作机制,从而提供更全面的安全掩护。结合AI防火墙和集成防火墙大概会比单独使用任何一种都更强盛。这是由于直接集成到AI模子的智能中,可以提供更高效和有效的威胁对抗本领。
实施步骤
- 模子分析:首先需要对GenAI模子进行深入分析,辨认出与不当行为干系的内部状态和神经元。
- 监控体系开辟:开辟一个体系,能够实时监控这些内部状态,并在检测到异常时发出警报。
- 对抗性练习:在已知威胁的数据集上练习模子,加强其对恶意输入的辨认和防御本领。
- 连续更新:随着攻击本领的不停演变,防火墙也需要不停更新其监控和防御机制,以应对新的威胁。
护栏
护栏指的是在LLM的输出上实施应用特定的限制或政策,确保模子天生的内容符合既定的安全和道德尺度。比方,某些应用大概需要限制模子讨论特定主题,如禁止天生涉及恐怖主义、种族歧视或黄色暴力的内容。为了实现这一点,研究人员提出了一种基于拒绝的采样或最佳K项采样的方法。这种方法通过让模子多次天生输出,并使用另一个模子来评估每个输出是否符合护栏要求,然后选择得分最高的输出。尽管这种方法有效,但它在盘算上大概非常昂贵,因此研究人员正在探索更经济高效的护栏实施方法。
水印和内容检测
区分人类天生内容与机器天生内容在许多场景下都非常重要,比如防止抄袭、制止数据污染和控制错误信息的传播。为了实现这一点,研究人员正在探索两种主要方法:练习分类器来辨认人类和机器天生的内容,以及在LLMs中嵌入水印。
水印技能是一种将隐蔽信号嵌入到天生内容中的技能,使得这些内容可以被追溯到其来源。这种方法的优势在于,它为内容提供了一种持久的身份标识,纵然内容被修改或重新分发,水印依然可以被检测出来。然而,水印技能也面临着寻衅,比如如何在不显著影响内容质量的情况下嵌入水印,以及如何确保水印在不同的模子和内容类型中都有效。
内容检测则依靠于练习有素的分类器,这些分类器能够辨认出特定类型的天生内容。这种方法的寻衅在于,随着天生模子的不停进步,天生的内容越来越难以与人类天生的内容区分开来。别的,分类器大概对某些语言或不常见的样本存在偏见,这限制了其在多样化内容检测中的有效性。
研究人员建议,未来的研究应更多地关注水印技能,而不是依靠于分类器。水印技能大概更可靠,由于它不依靠于模子输出的分布,而是基于内容本身的隐蔽标志。别的,研究人员还提出了一些详细的研究方向,比如如何为开源模子添加水印,如何为人类天生的内容添加水印,以及如何确保水印机制在不同模子和AI技能代际之间有效协调。
法规执行
政策制定者应该思量以下几个方面:
专有和开源模子的羁系:不同类型模子的羁系需要不同的策略。专有模子由于由少数公司控制,大概更容易羁系,但这依靠于这些公司的负责任和道德实践。开源模子虽然允许不受限制的使用和修改,促进了快速创新和对AI安全性的研究,但也大概带来更大的风险。政策需要在促进创新和确保安全之间找到平衡。
当局对LLM公司的许可:通过当局许可制度,可以为LLM公司建立一个结构化的框架,确保它们在开辟和摆设模子时遵守肯定的责任、监督和道德合规性。这有助于提高公众对GenAI体系的信任。
动态政策演变:鉴于GenAI技能的快速发展,政策和法规也需要不停更新,以顺应新的技能现实和寻衅。政策制定者需要机动应对,确保政策能够及时反映技能的最新发展。
威胁管理的演变
随着技能的发展,攻击本领也在不停演变,这就要求安全体系能够不停顺应和进化。类似于盘算机视觉领域对抗性示例的不停更新,GenAI领域也需要不停更新其防御策略。目前,一种实用的防御策略是监控和检测威胁。开辟者需要工具来监测、检测和响应针对GenAI的攻击,并制定威胁情报策略来跟踪新出现的威胁。社会已经花了数千年时间来发展对抗欺诈者的方法,而GenAI技能相对较新,因此我们仍在探索如何有效防御它们。研究人员正在积极研究新的对策,以防御针对GenAI的威胁,建议开辟者设计体系时保留机动性,以便在未来发现新的防御措施时能够迅速整合。
这些研究方向旨在通过创新的方法来提高GenAI的安全性,确保技能进步与伦理尺度和安全协议保持同等,防止滥用。
论文链接:https://arxiv.org/abs/2402.12617
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |