ToB企服应用市场:ToB评测及商务社交产业平台

标题: 天生式人工智能(GenAI)的安全寻衅与对策 [打印本页]

作者: 莫张周刘王    时间: 2024-10-10 14:22
标题: 天生式人工智能(GenAI)的安全寻衅与对策
人工智能咨询培训老师叶梓 转载标明出处

GenAI体系,如大模子(LLMs)、视觉语言模子(VLMs)和扩散模子,通过提供肯定水平的自主性,使得它们能够天生文本和代码、与人类及互联网服务互动、天生逼真的图像并明白视觉场景。然而,这种本领也引入了新的安全寻衅。加州大学伯克利分校的研究人员深入探究了GenAI体系所面临的安全问题,并提出了大概的研究方向,以管理这些风险。
   
     针对Bing Chat的提示注入攻击示例   
这个例子中,注入提示隐藏在网站内容中,导致聊天模子出现不期望的行为。攻击导致模子开始输出表情符号,但也大概产生更严峻的结果,比如输出虚假信息或滥用内容    问题

(GenAI)模子能够明白和天生内容,甚至与人类和互联网服务进行互动,但这种自主性也使它们成为攻击者的目的:
对抗性攻击和操纵
GenAI模子容易受到两种主要的攻击方式:越狱(Jailbreaking)和提示注入(Prompt Injection)。越狱技能是一种新兴本领,攻击者通过经心设计的提示来操纵AI模子,使其天生有害或误导性的输出。这种行为类似于在智能手机中获取root权限,但在这里,攻击者绕过模子的限制,天生被禁止或未预期的内容。越狱攻击不但威胁到模子自身的安全性,还大概引发更广泛的安全问题,比如在与外部工具、插件或软件API交互时,攻击面被放大。
提示注入攻击则通过将恶意数据或指令插入模子的输入流中,欺骗模子遵循攻击者的指令,而不是应用开辟者的指令。这种攻击方式类似于数据库体系中的SQL注入攻击,攻击者构造恶意数据,当这些数据被应用到SQL查询中时,数据库会将其解释为新的查询。在GenAI的配景下,提示注入可以使用模子的天生本领,产生与应用预期功能显著偏离的输出。这种攻击尤其令人担忧,由于它大概会在更广泛的应用中造成严峻的安全漏洞。
恶意行为者的滥用
恶意行为者大概会使用GenAI工具进行更广泛的攻击。他们可以使用GenAI天生恶意代码或有害内容,从而对数字安全体系构成重大威胁。比方,攻击者可以使用GenAI自动天生复杂的垂纶邮件,这些邮件看起来像是来自可信的来源,但现实上包含恶意链接或附件。攻击者还可以天生虚假的图像或视频剪辑,用于虚假信息传播或诈骗活动。这些伪造的媒体内容大概会在交际媒体上迅速传播,误导公众,甚至影响社会稳定。
更严峻的是,攻击者可以使用GenAI天生能够攻击在线体系的恶意代码。这些代码可以针对特定的软件漏洞,自动天生并传播,造成广泛的网络攻击。这种行为不但对个人用户构成威胁,还大概对企业甚至国家安全造成严峻影响。
   
     基于规则的防御可以被轻易击败的例子   
这张图显示了几个非平凡的越狱提示,这些提示很难用简单规则检测到    传统的盘算机安全技能,如访问控制、防火墙、沙箱和恶意软件检测,在GenAI体系中大概不实用。GenAI体系的攻击大概更像是针对人类构造的交际工程攻击,而不是高度针对性的技能漏洞使用。为了应对GenAI带来的安全寻衅,研究人员提出了多个潜伏的研究方向,包括构建“AI防火墙”来监控和大概转换GenAI模子的输入和输出,研究如何通过监控模子的内部状态来检测攻击,以及如何对开源GenAI模子进行微调以对抗已知的恶意提示和行为。
潜伏的研究方向

AI防火墙
AI防火墙是指一种掩护黑盒GenAI模子的体系,通过监控和大概转换其输入和输出来实现。这包括监控输入以检测大概的越狱攻击,以及监控输出以检查是否违反安全政策。研究者们提出使用连续学习来检测新的越狱提示,并思量使用状态信息来分析用户的行为模式,以判定是否存在恶意意图。AI防火墙大概还需要使用内容适度模子来检查输出内容是否合适。
   
     通过将内容过滤模子应用于大模子(LLM)的输入和输出来构建AI防火墙的概念    如图3所示,AI防火墙核心是一个内容适度模子,它负责评估和过滤模子的交互。
输入监控
输出监控
实施步骤
集成防火墙
集成防火墙通过访问GenAI模子的权重,提供了更有效的防御机会,允许更正确地检测攻击。研究者们讨论了两个潜伏的研究方向:内部状态监控和安全微调。
内部状态监控
安全微调
   
     集成防火墙如何使用对模子的可见性来检测更多攻击的概念    图4展示了集成防火墙如何使用对模子内部的可见性来检测更多的攻击。这种防火墙不但能够监控输入和输出,还能够深入到模子的内部工作机制,从而提供更全面的安全掩护。结合AI防火墙和集成防火墙大概会比单独使用任何一种都更强盛。这是由于直接集成到AI模子的智能中,可以提供更高效和有效的威胁对抗本领。
实施步骤
护栏
护栏指的是在LLM的输出上实施应用特定的限制或政策,确保模子天生的内容符合既定的安全和道德尺度。比方,某些应用大概需要限制模子讨论特定主题,如禁止天生涉及恐怖主义、种族歧视或黄色暴力的内容。为了实现这一点,研究人员提出了一种基于拒绝的采样或最佳K项采样的方法。这种方法通过让模子多次天生输出,并使用另一个模子来评估每个输出是否符合护栏要求,然后选择得分最高的输出。尽管这种方法有效,但它在盘算上大概非常昂贵,因此研究人员正在探索更经济高效的护栏实施方法。
水印和内容检测
区分人类天生内容与机器天生内容在许多场景下都非常重要,比如防止抄袭、制止数据污染和控制错误信息的传播。为了实现这一点,研究人员正在探索两种主要方法:练习分类器来辨认人类和机器天生的内容,以及在LLMs中嵌入水印。
水印技能是一种将隐蔽信号嵌入到天生内容中的技能,使得这些内容可以被追溯到其来源。这种方法的优势在于,它为内容提供了一种持久的身份标识,纵然内容被修改或重新分发,水印依然可以被检测出来。然而,水印技能也面临着寻衅,比如如何在不显著影响内容质量的情况下嵌入水印,以及如何确保水印在不同的模子和内容类型中都有效。
内容检测则依靠于练习有素的分类器,这些分类器能够辨认出特定类型的天生内容。这种方法的寻衅在于,随着天生模子的不停进步,天生的内容越来越难以与人类天生的内容区分开来。别的,分类器大概对某些语言或不常见的样本存在偏见,这限制了其在多样化内容检测中的有效性。
研究人员建议,未来的研究应更多地关注水印技能,而不是依靠于分类器。水印技能大概更可靠,由于它不依靠于模子输出的分布,而是基于内容本身的隐蔽标志。别的,研究人员还提出了一些详细的研究方向,比如如何为开源模子添加水印,如何为人类天生的内容添加水印,以及如何确保水印机制在不同模子和AI技能代际之间有效协调。
法规执行
政策制定者应该思量以下几个方面:
专有和开源模子的羁系:不同类型模子的羁系需要不同的策略。专有模子由于由少数公司控制,大概更容易羁系,但这依靠于这些公司的负责任和道德实践。开源模子虽然允许不受限制的使用和修改,促进了快速创新和对AI安全性的研究,但也大概带来更大的风险。政策需要在促进创新和确保安全之间找到平衡。
当局对LLM公司的许可:通过当局许可制度,可以为LLM公司建立一个结构化的框架,确保它们在开辟和摆设模子时遵守肯定的责任、监督和道德合规性。这有助于提高公众对GenAI体系的信任。
动态政策演变:鉴于GenAI技能的快速发展,政策和法规也需要不停更新,以顺应新的技能现实和寻衅。政策制定者需要机动应对,确保政策能够及时反映技能的最新发展。
威胁管理的演变 
随着技能的发展,攻击本领也在不停演变,这就要求安全体系能够不停顺应和进化。类似于盘算机视觉领域对抗性示例的不停更新,GenAI领域也需要不停更新其防御策略。目前,一种实用的防御策略是监控和检测威胁。开辟者需要工具来监测、检测和响应针对GenAI的攻击,并制定威胁情报策略来跟踪新出现的威胁。社会已经花了数千年时间来发展对抗欺诈者的方法,而GenAI技能相对较新,因此我们仍在探索如何有效防御它们。研究人员正在积极研究新的对策,以防御针对GenAI的威胁,建议开辟者设计体系时保留机动性,以便在未来发现新的防御措施时能够迅速整合。
这些研究方向旨在通过创新的方法来提高GenAI的安全性,确保技能进步与伦理尺度和安全协议保持同等,防止滥用。

论文链接:https://arxiv.org/abs/2402.12617


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4