ToB企服应用市场:ToB评测及商务社交产业平台

标题: LLM大模子安全概述 [打印本页]

作者: 我可以不吃啊    时间: 2024-7-27 12:24
标题: LLM大模子安全概述
引言

2022年底以来,以ChatGPT为代表的大模子飞速发展,正在成为#驱动新质生产力发展#​的新动能、人类探索未知的新工具. 在显著提升人工智能(artificial intelligence, AI)模子通用理解和天生本领的同时,也带来了前所未有的安全风险.
大模子的本领与风险

天生式大模子因其强盛的智能本领和巨大的应用潜力吸引了浩繁研究者和企业的关注. 从智能本领的角度来看,研究人员观测到:当训练数据和参数规模持续增长,超过某个阈值的时候,模子本领会突然跃升,出现“智能涌现”的拐点. OpenAI的技术陈诉表现, GPT-4在浩繁专业和学术测验中均显现出了人类级别的体现. 2024年Sora的发布,更将AI的多媒体天生本领推向了新的高度. 《自然》(Nature)的一则News Feature文章援引AI21 Lab设计的150万人的对抗性图灵测试效果,证实用户已无法区分与之对话的是人类照旧AI,并因此主张大模子在形式上已通过了图灵测试. 只管当前的大模子还没有实现通用人工智能(artificial general intelligence, AGI),且关于图灵测试是否公道以及AGI的最终实现方案和具体时间点尚有很多争议,各界却基本认同,人类正在沿着正确的方向推进AGI的发展.
从应用角度看,大模子正在快速成为类似于数字化时代“数据库”这样的智能化时代的通用底座. 一方面,各类定制化的GPTs蓬勃发展,新一代智能应用(AI APP)方兴未艾,大模子赋能的智能体(agent) 的应用范围不断扩大,多智能体协同的研究百花齐放,对数字网络空间的应用形态及其演变都将产生极为深远的影响;另一方面,大模子的应用边界也在快速从数字空间向物理空间扩展,具备了智能化的外部工具使用、自动控制本领,并通过与呆板人的联合,显现了物理天下的具身智能潜力.
大模子面临的安全风险前所未有,模子的通用性、潜在的主体地位以及应用的深度与广度,也都将进一步放大其危害程度. 包罗两位图灵奖得主Geoffrey Hinton、Yoshua Bengio和DeepMind的CEO Demis Hassabis、OpenAI的CEO Sam Altman在内的产学两界领军人物联名发出的AI风险声明中,更将AI大概带来的“扑灭性”的风险,上升到了与流行病以及核战争相提并论的高度. 与之相呼应的是,生物安全专家警告说:聊天呆板人大概会使可怕分子更轻易发动像1918年发作的流感那样致命的流行病. 在2023年底《自然》杂志预测的2024年的重大科学变乱中,GPT-5的发布以及联合国人工智能高级别咨询机构将发布的AI监管相关陈诉位列此中,反映了全球对协调AI发展与安全的重大关切. 毫无疑问,促使大模子遵照人类价值观、服从人类意图、规避各类风险,并保障数字和物理空间的应用安全,实现有用性(helpful) 无害性(harmless) 诚实性(honest) ,即3H多目标的均衡,已经成为亟待办理的天下难题之一.
   3H目标#​:有用性(helpful)、无害性(harmless)、诚实性(honest)

  安全风险成因

大模子特有的预训练、微调、上下文、提示、思维链(chain of thought, CoT)等新的学习范式,使其安全具有了与传统AI安全差别的很多新特点,面临诸多新挑衅. 大模子安全风险的成因存在很多的共性,既可以是来自各类训练数据的缺陷或技术的局限性等模子内因,也可以是使用新型学习范式的恶意使用或蓄意攻击等外因. 从大模子的生命周期着眼,其成因可以被大体分解为数据、预训练、人类价值观对齐及推理4个阶段.
   大模子四个阶段:数据预备、预训练、人类价值观对齐(微调)、推理
   天生式模子须要大规模的训练数据,数据的规模同模子本领痛痒相关. 新的大模子如GPT 4、LLaMA 3等训练数据规模动辄十几万亿词元(token),内容包罗维基百科、电子书籍、网络数据等. 多源数据中常常会包罗与人类价值观不一致或相互辩说的内容,侦探小说、法律文件等电子书籍中也会存在无法公道去除的有害内容,或去除后反而会严重影响模子“辨别善恶”的本领. 网络数据还会存在显着的数据偏执、究竟偏颇等问题,也会有大量难以检测辨别的AI天生的、未经核实的内容,导致模子学习到的知识本身产生了错误,轻易天生价值观扭曲、究竟歪曲或未经核实的内容. 这一由数据质量带来的问题在各类须要数据的微调、强化学习等环节普遍存在,也大概进一步加剧错误的传播,误导模子的发展方向.
当前大语言模子紧张基于Google提出的Transformer模子,采用自监视的方式进行训练. 训练时根据已有前文,预测下一个词,本质上仍然遵照马尔可夫假设. 这使得大模子学习到的知识具有显著的概率特性,天生内容具有不确定性、不可控性等特征,且缺乏可解释性. 研究人员发现,在部分环境下模子学习到的不是语料中究竟知识,而是一种语言模子目标导向的、根据标签种别的差异和样本的分布序次得到的语言天生本领,增加了大模子出现幻觉征象的风险. 类似地,从原理上也就无法避免产生各类有害、不实信息. 训练过程的目标与后续对齐过程目标的辩说,也轻易导致模子过于强调遵照有用性而讨好奉承(sycophancy)用户,忽略了输出内容的安全性和真实性.
人类价值观对齐方法(如InstructGPT),致力于引导大模子与人类价值观保持一致. 现有方法面临高质量对齐标注数据稀缺,强化学习等方法存在目标错误泛化(goal misgeneralization)和奖励错误规范(reward misspecification)问题,以及3H多目标辩说带来的“对齐税”等挑衅性难题,且不具备在动态环境中的持续化对齐本领. 加州伯克利分校的研究认为,现有对齐安全方法轻易失效的缘故原由可以归结为,训练与对齐的竞争目标(competing objective)和泛化本领失配(mismatched generalization). 前者易导致模子在多个目标选择之间“错误百出”;而后者则会由于对齐的泛化本领远低于训练,留出巨大的“攻击空间”. 回到数据方面,只管红队测试方法(red teaming)可以为对齐提供高质量的潜在漏洞或者问题数据,但它仍存在着自动化程度较低、风险覆盖面窄等局限性,无法满足不断出现、内容与形式不断变革的有害不实信息的常态化治理要求.
大模子在推理时依靠留意力机制计算概率以逐词天生,虽然可通过控制温度等参数提高天生简直定性,但在没有外部干预的环境下,仍难以依靠自身价值观对齐的气力,完全做到“趋利避害”. 由于大模子学习到的知识在参数中的存储和调用形式未知,在推理阶段也大概存在无法有效划定知识边界和综合差别来源的知识的风险,也增加了发生有害、不实信息和幻觉的概率. 在模子外部,一方面,模子推理阶段常用的外设护栏技术依靠于有害、不实信息的自动化辨认,而现有的分类模子会面临少样本、零样本问题,泛化性和鲁棒性弱,且在形式多样的有害不实信息多分类任务上的迁移本领差,发现力严重不敷,漏检和错误拒答频发;另一方面,与传统AI模子相比,大模子在推理阶段具有强盛的上下文学习、提示学习、思维链学习等高级学习本领,同时也带来了一系列新的安全风险. 恶意用户可以使用具有欺骗性的上下文、攻击性提示或者恶意CoT,使用任务微调、提示微调、指令微调等本领提高攻击本领,乃至蓄意使用大模子对多模态或加密内容的高级理解本领伪装非法查询,探测模子防御“漏洞”,诱导模子产生误判.
安全研究进展

当前大模子安全研究尚处于早期发展阶段,涵盖浩繁的研究方向,且紧张聚焦于其特有的安全挑衅,而对后门攻击等传统AI安全问题则关注较少. 这些研究领域包罗但不限于天生内容检测、模子水印、红队测试、对齐、越狱攻击、有害辨认、隐私掩护以及安全理论探析等,且现在尚未形成一个得到广泛认可的分类体系. 须要强调的是,受篇幅所限,本节的目标在于提供一个相关方向的宏观分类简介,而不是详尽的综述. 为了简化问题、便于理解和实践,我们从安全领域的角度将之分为安全测评、安全攻击、风险辨认、安全防护4个部分.
大模子安全测评的目标紧张包罗测评大模子防备不良输出、确保数据隐私、消除私见和保障公平性、防范对抗性攻击等方面的本领.
研究者们围绕差别的测试重点开展了浩繁的安全测评基准工作,如以综合测评为主,但关注有毒和虚伪信息等的HELM、 综合评估攻击得罪(offensiveness)、私见歧视(unfairness and bias)等7个安全维度的SafetyBench等测评工作.
大模子的安全攻击紧张可以被划分为“善意”的红队测试恶意攻击两种常见的形态.
红队测试更多服务于模子风险的自动测试和潜在漏洞发现,常常被应用于风险的自动测评和安全对齐. 此中,手工红队紧张通过组建专门的红队小组与待测试的大模子进行对抗性交互的方式来发现模子的安全风险,须要大量的人力进行长周期的测试以保证测试的全面性和充实性. 现有的自动化红队测试方法则是使用红队语言模子替换人工红队小组对语言模子进行测试. 测试者编写指令要求红队语言模子产生测试问题,然后将测试问题输入给待测模子并收集其回复,再使用训练好的分类器对待测模子的回复进行风险评估. 此类方法通过反复地自举攻击成功的样例作为提示或训练样本,很轻易使测试样例的种别趋于单一化,且分类器的局限性也会导致相当比例的假阳性和假阴性样本,这也引出了对自动化风险辨认本领的需求. 别的,现有的自动化红队测试方法通常仅进行单轮的测试,而对于须要多轮交互才气成功诱导的场景,则大概存在测试不充实的问题.
恶意攻击紧张包罗越狱攻击和提示注入攻击. 越狱攻击使用大模子漏洞,误导模子输出有害或不实内容;提示注入攻击则操纵模子输入,诱导模子担当攻击者控制的指令,以产生欺骗性输出. 只管二者之间有肯定交集,提示也是越狱攻击的一种紧张本领,但相比之下,越狱攻击更强调对大模子安全机制本身的攻击,而提示注入攻击则紧张攻击大模子的提示环节.
大模子须要对AI天生内容的安全风险自动化辨认,其自身也可以被用于提高模子和用户天生内容的有害内容发现程度. 它能够服务于数据预备阶段的有害信息过滤、推理阶段的用户问题和模子天生回复的有害性判别,也是安全测评、红队测试中自动化有害判别的紧张依据.
常见的安全防护方法,包罗关注模子内生的安全对齐方法关注外部安全的护栏方法等.
   安全对齐的方法:监视微调(SFT)、基于人类反馈的强化学习(RLHF)
  安全对齐紧张是在模子微调训练过程中引导其向无害性发展,去除模子本身有害性和幻觉的方法. 安全对齐是近期的热门研究方向,所使用的方法除了监视微调(supervised fine-tuning, SFT)基于人类反馈的强化学习(reinforcement learning from human feedback, RLHF) 外,还包罗AI宪法、面向过程的细粒度对齐、直接偏好优化(direct preference optimization, DPO)、即插即用对齐等.
关注外部安全的护栏方法则紧张是通过分类判别模子对大模子的输入(用户哀求)和输出进行不良和不实内容的辨认和过滤,使得模子免受来自恶意用户的提示攻击,并对不良或不实内容进行改正.
总的来看,安全测评、安全攻击、风险辨认、安全防护这4个部分在技术上既存在交织关系却又各有偏重.

总结

大模子安全紧张性不言而喻,大模子本领愈强,风险愈大. 大模子安全不再如传统安全一般,只是计算机应用的伴生物,而是须要优先构筑的核心底座. 没有这个安全底座,应用就轻易变成在风险中飘摇的无本之木,变成极易坍塌的空中楼阁,大模子自身就难以实现可持续的发展.
图灵奖得主、深度学习之父Hinton认为,低智力物种很难真正控制更高级的聪明物种. 这一“Hinton之问”算是对大模子安全的魂魄诘问,亟待人类的应答. 一方面,大模子安全技术研究日新月异、成果显著,头部企业如OpenAI等也组建Superalignment ,宣布投入20%的算力,以控制、引导超级智能对齐;另一方面,我们对大模子“智能涌现”的原理还所知甚少,对上下文学习、提示学习、思维链等本领的内在机理仍严重缺乏认知. 一些研究工作也证实AI的安全性无法完全保障、对任意一个对齐模子总存在肯定长度的提示可以将之攻破等,这些都极大地制约了我们从原理上认识和防御大模子的安全风险. 在追求“安全大模子”的道路上,我们不但要突破浩繁的技术瓶颈,还必须优先扫除一系列的理论障碍,挑衅殊为艰巨.
放眼未来,在AI“主体化”进程持续加速的背景下,我们大概将面临一个“人机共生”的信息物理社会,这一社会的和谐发展,将不但须要人类共同体内部达成一致,还将大概须要在人与AI之间、AI与AI之间实现双向的价值观对齐,与之对应的社会伦理、法律体系等也都将面临翻天覆地的革命性变革. 在这样的背景下,更须要群策群力,将“亦正亦邪”的大模子关到人类价值观的“笼子”里. 唯盼此专题能抛砖引玉,引发产学两界更多专家学者的共鸣,共同促进该领域的研究发展,助力构筑人类安全、可持续的智能未来.
大模子广告2
6/100
保存草稿
发布文章
AAI666666
未选择任何文件
如何系统的去学习大模子LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的本领和经验解答大家在人工智能学习中的很多狐疑,以是在工作繁忙的环境下照旧坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋侪无法获得正确的资料得到学习提升,故此将并将紧张的 AI大模子资料 包罗AI大模子入门学习思维导图、佳构AI大模子学习书籍手册、视频教程、实战学习等录播视频免费分享出来
所有资料 ⚡️ ,朋侪们如果有须要全套 《LLM大模子入门+进阶学习资源包》,扫码获取~
   




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4