主机安全PrimeGuard：AI安全新突破，分身安全性与实用性的革命性方法

杀鸡焉用牛刀 发表于 2024-10-2 15:19:04

PrimeGuard：AI安全新突破，分身安全性与实用性的革命性方法

在人工智能快速发展的本日，如何确保大型语言模子(LLM)在保持高性能的同时遵守安全准则，成为了一个迫切需要解决的问题。克日，来自Dynamo AI的研究团队提出了一种名为PrimeGuard的创新方法，有望彻底改变AI安全范畴的格局。这项研究不但在技能上取得了突破性进展，更为AI的广泛应用和贸易化铺平了道路。
安全与实用性的两难逆境

长期以来，AI研究人员不绝在安全性和实用性之间苦苦挣扎。传统方法要么太过强调安全导致模子变得过于谨慎，要么为了保持高性能而在安全方面妥协。这种两难逆境被研究人员形象地称为"guardrail tax"（防护栏税）。
Dynamo AI的首席科学家Blazej Manczak解释道：“就像在高速公路上，我们盼望既能让车辆高速行驶，又能确保安全。但现有的AI’防护栏’要么限制了模子的发挥，要么难以有用防范风险。”
PrimeGuard：突破性的动态路由方法

为相识决这一难题，研究团队提出了PrimeGuard方法。这种方法巧妙地利用了两个语言模子：LLMMain和LLMGuard。当系统收到用户查询时，LLMGuard起首对查询举行风险评估，将其分类为无风险、潜伏风险或直接违规三种情况。
"这就像是一个智能交通系统，"Manczak打比方说，“LLMGuard就像是一个经验丰富的交警，它会根据’路况’——也就是查询的内容和上下文——来决定如何处理这个查询。”
具体来说，如果查询被判定为无风险，系统会鼓励LLMMain提供有帮助的回答。如果是直接违规，则会婉拒回答。对于潜伏风险的情况，系统会要求LLMGuard举行更深入的分析，以确保回答既安全又有用。
这种动态路由机制的独特之处在于，它可以大概为每个查询动态编译指导说明。这意味着系统可以根据具体情况机动应对，而不是采取一刀切的方法。
突破性成果：安全性和实用性的双赢

研究团队对PrimeGuard举行了全面评估，结果令人振奋。在Mixtral-8x22B模子上，PrimeGuard将安全相应的比例从60.8%提高到了97.0%，同时还将平均有用性评分从4.170提拔到了4.285。
更令人惊叹的是，PrimeGuard在抵御自动化越狱攻击方面体现出色。在利用最先进的TAP攻击方法时，PrimeGuard将攻击乐成率从100%降低到了仅8%。
研究的联合作者Eric Lin强调：“这些结果意味着，我们不再需要在安全性和实用性之间做出弃取。PrimeGuard证明了，通过巧妙的设计，我们可以同时提高这两个关键指标。”
广泛的适用性和未来预测

PrimeGuard的另一个紧张上风是其广泛的适用性。研究表明，这种方法在不同规模的模子上都能取得显著结果，从141B参数的Mixtral-8x22B到仅有3.8B参数的Phi-3-mini都有良好体现。
"这意味着PrimeGuard可以被广泛应用于各种AI系统，"研究团队成员Eliott Zemour解释道，“无论是大型科技公司还是初创企业，都可以利用这种方法来提高他们AI产物的安全性和实用性。”
预测未来，研究团队筹划进一步优化PrimeGuard，特别是在小型模子上的性能。他们还盼望探索如何将这种方法应用到其他类型的AI系统中，如计算机视觉和语音识别。
结语

PrimeGuard的出现无疑为AI安全范畴带来了一股清新之风。它不但解决了长期困扰研究人员的安全性与实用性权衡问题，还为AI的广泛应用扫清了停滞。随着这项技能的进一步发展和完善，我们有理由期待看到更多安全、高效且富有创造力的AI应用出如今我们的生存中。
正如Manczak所说：“PrimeGuard让我们看到了AI的优美未来——在这个未来中，技能既强盛又可控，既富有创造力又遵守道德准则。这正是我们不绝在寻求的目标。”
参考文献：

[*] Manczak, B., Zemour, E., Lin, E., & Mugunthan, V. (2024). PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing. arXiv:2407.16318v1 .
[*] Leike, J. (2022). The alignment tax. Proceedings of the 40th International Conference on Machine Learning.
[*] Rottger, J., et al. (2023). XSTest: A test suite for evaluating oversensitivity in language models. Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics.
[*] Mehrotra, A., et al. (2023). TAP: Targeted Adversarial Prompting for Red Teaming Language Models. arXiv preprint arXiv:2301.12867.
[*] Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

PrimeGuard：AI安全新突破，分身安全性与实用性的革命性方法