OpenAI开发了一种新方法来教授AI模型与安全政策保持同等
OpenAI 宣布了一种新的方法来教授人工智能模型与安全政策保持同等,这种方法被称为"基于规则的奖励"(Rules Based Rewards)。据 OpenAI 安全体系负责人 Lilian Weng 介绍,基于规则的奖励(RBR)可以自动对一些模型举行微调,并紧缩确保模型不会产买卖外结果所需的时间。https://i-blog.csdnimg.cn/direct/6a3120027c7b4a30849d96b98c04f6bf.png
"传统上,我们依靠从人类反馈中获得的强化学习作为默认的对齐训练来训练模型,这很有效,"Weng 在接受采访时说。“但在实践中,我们面对的挑衅是,我们花了大量时间讨论政策的渺小差别,到最后,政策大概已经演变了。”
Weng 提到了从人类反馈中的强化学习,它要求人类对模型举行提示,并根据正确性或他们喜欢的版本对模型的答复举行评分。如果模型不应该以某种方式做出回应–例如,听起来很友好或拒绝答复"不安全"的请求,如询问危险的东西–人类评估者也可以对其回应举行评分,看它是否遵照了政策。
https://i-blog.csdnimg.cn/direct/16a63c3e593c41759b7d482e703b5859.png
OpenAI 表示,通过 RBR,安全和政策团队会使用一个人工智能模型,该模型会根据响应与团队创建的一系列规则的紧密水平举行评分。
例如,一款心理康健应用步伐的模型开发团队盼望人工智能模型能够拒绝不安全的提示,但要以非评判的方式,同时提醒用户在须要时寻求资助。他们必须为模型订定三条规则:第一,它须要拒绝请求;第二,听起来不带批判性;第三,使用鼓励性的语言让用户寻求资助。
RBR 模型查看心理康健模型的反应,将其映射到三个根本规则,并确定这些反应是否符合规则的要求。Weng 说,使用 RBR 测试模型的结果可与人类主导的强化学习相媲美。
固然,确保人工智能模型在特定参数范围内做出反应是很困难的,一旦模型失败,就会引起争议。本年二月,Google表示,在Gemini模型一连拒绝天生白人照片,而是创建了非历史图像后,它对双子座的图像天生限定举行了过度修正。
https://i-blog.csdnimg.cn/direct/c5c2f7ed87604174be6b44f55b24d7eb.png
https://i-blog.csdnimg.cn/direct/8e9203808c1545bd984438afe42911ff.png
"对许多人来说,包括我自己在内,由模型来负责另一个模型的安全这一想法令人担忧。"但 Weng 说,RBR 现实上淘汰了主观性,这也是人类评估员经常面对的问题。“我的反驳意见是,即使你与人类培训师互助,你的指导越是含糊不清,你得到的数据质量就越低。如果你说选择哪一个更安全,那么这并不是一个人们能够真正遵照的指令,因为安满是主观的,所以你要缩小指令的范围,最后,你就只剩下我们给模型的同样规则了。”
OpenAI 认为,RBR 可以淘汰人类的监视,并提出了道德方面的思量,包括大概会增加模型中的偏差。该公司在一篇博文中说,研究人员"应仔细设计 RBR,以确保公平性和正确性,并思量联合使用 RBR 和人类反馈"。
对于主观性的使命,如写作或任何创造性的使命,RBR 大概会碰到困难。
OpenAI 在开发 GPT-4 时就开始探索 RBR 方法,不过 RBR 从其时起已经有了很大的发展。
OpenAI 的安全承诺不停备受质疑。本年 3 月,该公司 Superalignment 团队的前研究员兼负责人 Jan Leike 发帖抨击该公司,称"安全文化和流程已被亮眼的产物所取代"。与 Leike 共同领导 Superalignment 团队的联合首创人兼首席科学家 Ilya Sutskever也从 OpenAI 辞职。此后,Sutskever创办了一家专注于安全人工智能体系的新公司。
了解更多:
https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/
我会定期在CSDN分享我的学习心得,项目经验和行业动态。如果你对某个范畴感兴趣,或者想要了解更多技术干货,请关注我的账号,一起发展!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]