罪恶克星 发表于 2024-10-9 15:22:24

清华大学、中关村实行室携手蚂蚁团体共同推出《大模型安全实践白皮书》——

7月5日下午,清华大学、中关村实行室、蚂蚁团体等机构团结撰写的《大模型安全实践(2024)》白皮书(以下简称“白皮书”)在2024天下人工智能大会上正式发布。
白皮书首次体系化提出安全实践总体框架,从安全性、可靠性、可控性等维度给到了技术实施方案,同时提供了金融、医疗、政务等范畴的大模型安全应用案例,以及“五维一体”协同共治的治理框架,为大模型行业规范高质量发展提供技术和实践的建议与参考。
https://img-blog.csdnimg.cn/img_convert/56c258e23905d742a617e13c4c7d1e26.jpeg
图:《大模型安全实践(2024)》白皮书发布现场
大模型技术正成为推动社会进步和创新的关键力量。然而随着大模型能力的不停增强,其安全性、可靠性、可控性受到前所未有的挑衅,如研发过程中引发信息泄露、价值对齐、呆板幻觉等题目,以及落地过程中面临的数据、模型、算法及其运行的软硬件环境安全风险。
面对以上挑衅,白皮书提出了大模型安全实践总体框架。
该白皮书确立了“以人为本,AI向善”为大模型安全建设的核心,确保技术进步服务于人类福祉;
以“安全、可靠、可控”三个核心维度的大模型安全技术体系,并涵盖了大模型安全测评与防御的综合技术方案;
以及“端、边、云”为大模型安全技术的主要承载实体。
https://img-blog.csdnimg.cn/img_convert/c905fa25fdda40c15a31785320bf6060.jpeg
图:大模型安全实践总体框架
作为陈诉核心,大模型安全技术体系里,安全性意味着确保模型在全部阶段都受到保护,涉及数据安全、模型安全、体系安全、内容安全、认知安全和伦理安全等;可靠性要求大模型在各种情境下都能连续提供正确、同等、真实的结果;可控性关乎模型在提供结果和决议时能否让人类了解和到场,可根据人类需要进行调适和操纵。通过这三个维度,可提升大模型的鲁棒性、可表明性、公平性、真实性、价值对齐、隐私保护等方向的能力。
白皮书指出安全评测技术和安全防御技术也是保障大模型安全的有效手段,但目前大模型的安全评测绝大多数是针对内容类场景,随着大模型技术快速发展和广泛应用,对Agent这类复杂大模型应用架构和将来通用AGI的评估是当下面临的挑衅。订定标准创建面向将来的大模型可信测评体系将会变得越来越重要,这需要当局、高校等机构,团结有相关经验的企业共同互助。
**白皮书以蚂蚁团体自研的大模型安全一体化办理方****案“蚁天鉴”为例,**介绍了国内机构和企业在探索大模型安全应用的优秀实践。
https://img-blog.csdnimg.cn/img_convert/98613ee17b2bd823c7d3e6f06e3f7787.jpeg
蚁天鉴是一款兼具大模型安全测评和防御的产物,目前已开放给20余家外部机构和企业,在金融、政务、医疗等重要范畴得到采用,为行业大模型数据、训练、部署、应用等环节提供安全保障。
金融场景
例如,在金融场景,蚂蚁AI金融助理“支小宝”,从大模型训练与推理风险管控、大模型风险点全方位评测、大模型用户交互风险管控三个方面保障大模型应用安全;针对金融业务,通过内嵌同等性检验和金融价值对齐,确保数据的正确性和金融逻辑的严酷性。
https://img-blog.csdnimg.cn/img_convert/65a8b30db25104ac8cad5956fb6aab4a.jpeg
医疗场景
在医疗场景,上海市第一人民医院引入“蚁天鉴”办理方案,在其首创安全前置护栏技术保障下,可精准杜绝医院最关注的风险的出现,保障医疗大模型天生的内容更符合医疗垂类的安全和专业,有效应对大模型应用中的信息安全与隐私保护、双向内容风险防控等题目。
政务范畴
在政务范畴,“赣服通”政务AI助理在端侧实施的安全措施具有鉴戒意义。通过千万政务预料训练来实现精准意图识别、智能追问反问和高频事项即问即办等功能;针对政务行业大模型应用中天生不可控、安全覆盖面广、内容对抗强、时效要求高等挑衅,构建安全护栏和安全防御两大核心能力,覆盖数百项大模型内容天生风险,可应对单次50万量级的饱和攻击。
清华大学长聘副传授、博士生导师李琦指出,大模型安全应用是一个新兴范畴,研究和应用尚处于起步阶段。不少企业是在原有的传统数据安全、信息安全、体系安全等经验基础上,进行能力迁移,应用于大模型安全。随着新的大模型安全实践的不停深入,技术也会连续升级,为大模型安全构建实践范式,打造高价值参考体系。
https://img-blog.csdnimg.cn/img_convert/dea816e33bcb179b88cf708e0ef0c0b9.jpeg
图:蚂蚁团体安全实行室首席科学家王维强主题演讲
蚂蚁团体安全实行室首席科学家王维强在会上做了《大模型应用安全可信实践探索》的主题演讲。王维强认为,随着大模型的深度应用,在原有可信人工智能治理体系框架基础上,提升大模型的安全、可靠、可控建设,确保技术进步服务于人类福祉,是将来人工智能可连续发展的重要保障。
白皮书最后还提出了构建集大模型安全当局监管、大模型安全生态培养、大模型安全企业自律、大模型安全人才造就、大模型安全测试验证“五维一体”多元到场、协同共治的治理框架。这有助于推进大模型安全生态形成、大模型可连续发展。
https://img-blog.csdnimg.cn/img_convert/6e4d546cbc4f13ba930918e00a3f9352.jpeg
白皮书获取方式:
页: [1]
查看完整版本: 清华大学、中关村实行室携手蚂蚁团体共同推出《大模型安全实践白皮书》——